使用內(nèi)置公開數(shù)據(jù)集快速體驗MaxCompute
odps
手動配置
35
教程簡介
云原生大數(shù)據(jù)計算服務(MaxCompute)是一種快速、完全托管的TB/PB級數(shù)據(jù)倉庫解決方案。MaxCompute向用戶提供了完善的數(shù)據(jù)導入方案以及多種經(jīng)典的分布式計算模型,能夠更快速的解決用戶海量數(shù)據(jù)計算問題,有效降低企業(yè)成本,并保障數(shù)據(jù)安全。
阿里云為您提供一定額度的MaxCompute免費資源包,資源包支持的計算能力包括:
SQL-標準版
SQL外部表(OSS、OTS外部表)
Spark
Mars
MapReduce
本教程會指導您基于MaxCompute提供的TPC-DS樣例數(shù)據(jù)和GitHub公開事件樣例數(shù)據(jù),通過MaxCompute SQL分析,快速體驗MaxCompute產(chǎn)品,完成開通、執(zhí)行SQL語句查詢數(shù)據(jù)。您無需進行數(shù)據(jù)同步,可直接上手體驗數(shù)據(jù)分析。通過本教程,您將體驗兩種場景下的數(shù)據(jù)查詢,學習如何通過云原生大數(shù)據(jù)計算服務MaxCompute進行產(chǎn)品性能測試與數(shù)據(jù)分析挖掘。
我能學到什么
體驗通過MaxCompute核心的SQL能力實現(xiàn)數(shù)據(jù)分析場景。
體驗MaxCompute的產(chǎn)品性能。
操作難度 | 易 |
所需時間 | 35 |
使用的阿里云產(chǎn)品 | |
所需費用 | 阿里云為您提供一定額度的免費資源包,您可以使用試用中心的資源包免費試用本教程。 如果您的操作超出了免費資源包的額度,則需收取相應的費用。計費詳情請參見MaxCompute計費說明概述。 |
準備環(huán)境和資源
5
開始教程前,請按以下步驟準備環(huán)境和資源:
訪問阿里云免費試用。單擊頁面右上方的登錄/注冊按鈕,并根據(jù)頁面提示完成賬號登錄(已有阿里云賬號)、賬號注冊(尚無阿里云賬號)或?qū)嵜J證(根據(jù)試用產(chǎn)品要求完成個人實名認證或企業(yè)實名認證)。
成功登錄后,在產(chǎn)品類別下選擇大數(shù)據(jù)計算>數(shù)據(jù)計算與分析,單擊云原生大數(shù)據(jù)計算服務 MaxCompute產(chǎn)品的立即試用。
在彈出的購買試用MaxCompute產(chǎn)品的面板上選擇開通地域,本教程選擇為華東2(上海),其他參數(shù)可保持默認值,勾選服務協(xié)議后單擊立即試用。
創(chuàng)建MaxCompute項目
5
登錄MaxCompute控制臺,在左上角選擇地域,本教程使用的地域為華東2(上海)。單擊左側(cè)導航數(shù)據(jù)管理>項目管理,在項目列表頁面單擊新建項目。
在彈出的新建項目配置頁面中配置項目信息,核心配置參數(shù)如表所示。
參數(shù)
說明
項目名稱
自定義項目名稱。本教程設置為doc_test_001。
【擴展知識】:項目名稱需全局唯一,如果界面提示您項目名稱已存在,您可根據(jù)提示修改項目名稱。
計算資源付費類型
本教程選擇:按量付費。
【注意】您通過免費試用選購的資源抵扣包僅可用于抵扣后付費資源消耗,本教程選擇“按量付費”。
默認Quota
用于實現(xiàn)計算資源分配。本教程選擇:默認后付費Quota。
單SQL消費限制
本教程不設置。本參數(shù)為單SQL消費的最高閾值。單位:掃描量(GB)*復雜度。非必填項,當選擇按量付費計費類型時建議設置,可以避免非預期的單SQL消費過高。同時也建議配置實時消費監(jiān)控告警,多方位監(jiān)控限制消費超出預期,詳情請參見消費監(jiān)控告警。
數(shù)據(jù)類型
MaxCompute數(shù)據(jù)類型包含1.0數(shù)據(jù)類型、2.0數(shù)據(jù)類型和Hive兼容類型。
本教程選擇:2.0數(shù)據(jù)類型。
是否加密
指定創(chuàng)建的MaxCompute項目是否需要開啟數(shù)據(jù)加密功能。更多數(shù)據(jù)加密信息,請參見數(shù)據(jù)加密。
本教程選擇:不加密。
完成配置后單擊確定,完成項目創(chuàng)建。
通過GitHub公開事件數(shù)據(jù)進行數(shù)據(jù)分析體驗
10
大量開發(fā)人員在GitHub上進行開源項目的開發(fā)工作,并在項目的開發(fā)過程中產(chǎn)生海量事件。GitHub會記錄每次事件的類型及詳情、開發(fā)者、代碼倉庫等信息,并開放其中的公開事件,包括加星標、提交代碼等,具體事件類型請參見GithubEvents。
MaxCompute將GH Archive提供的海量公開事件數(shù)據(jù)進行離線處理并開發(fā),生成一張事實表dwd_github_events_odps;一張聚合表dws_overview_by_repo_by_month_dailyupdate。
dwd_github_events_odps:存儲了每一條事件的主干信息,T+1小時更新。
dws_overview_by_repo_by_month_dailyupdate:存儲了項目維度每月事件指標匯總,T+1天更新。
登錄并進入MaxComputeSQL分析頁面,在左上角選擇地域,本教程使用的地域為華東2(上海)。
單擊左側(cè)資源管理器圖標,打開資源管理器頁面,在公開數(shù)據(jù)集DEMO中,單擊GithubEventsAnalytics樣例文件,在右側(cè)的運行參數(shù)中配置項目為上述創(chuàng)建的項目,計算配額選擇為默認后付費Quota,完成后單擊頂部的運行按鈕,等待任務運行完成。
本樣例文件包含多個query,每個query運行完成后將會在頁面底部展示查詢結(jié)果。一次運行樣例文件中的所有query預計花費10元,如果您的運行次數(shù)過多超出免費資源額度,則超出部分會按量計費。
對查詢結(jié)果進行可視化分析。您可以單擊運行結(jié)果的圖標,進行簡單的可視化分析。
本教程以最后一個query的查詢結(jié)果為例,單擊圖標后,界面展示自動生成的堆疊柱狀圖。
通過TPC-DS數(shù)據(jù)進行產(chǎn)品性能測試
10
與上述步驟一致,選擇公共數(shù)據(jù)集DEMO中的TPCDS樣例文件,本教程選擇以TPCDS_10G-99-query.sql為例,同樣配置運行參數(shù)配置中的項目、計算配額后單擊頂部運行,等待任務運行完成。
【重要說明】:
MaxCompute的 TPC DS Query樣例文件內(nèi)容引用自TPC,更多信息請參見TPC。通過上述文件查詢所得結(jié)果不能等同于已發(fā)布的TPC-DS基準結(jié)果。
購買免費試用規(guī)格后,計算資源的最大計算并發(fā)上限為100。
TPCDS_10G-99-query.sql樣例文件共99條query,運行完成時間與當前實際資源情況有關(guān),一般情況下預計需要15分鐘左右。如果您運行一段時間后希望停止任務,可單擊頂部的按鈕,然后前往作業(yè)運維頁面手動終止狀態(tài)為running的作業(yè)。
若您希望查詢其他規(guī)格的數(shù)據(jù),請參見執(zhí)行TPC-DS Query。這些查詢的復雜性和掃描數(shù)據(jù)范圍差異很大,請謹慎選取執(zhí)行,避免產(chǎn)生大量計算費用。您也可以使用TPC-DS基準套件中的工具生成這些查詢的不同版本,不同版本因參數(shù)值而異,詳情請參見TPC-DS官方文檔,費用參考如表所示。
數(shù)據(jù)規(guī)格
Schema名稱
使用按量計費運行費用預估
(真實費用以最終賬單呈現(xiàn)為準)
10GB
TPCDS_10G
約12元
100GB
TPCDS_100G
約120元
1TB
TPCDS_1T
約1200元
10TB
TPCDS_10T
約12000元
清理及后續(xù)
5
清理
完成教程后,如果后續(xù)您不再使用MaxCompute的話,請及時將MaxCompute資源釋放(刪除項目),避免不必要的費用產(chǎn)生,詳情請參見服務注銷與資源釋放。
歡迎通過申請鏈接或搜索(釘釘群號:11782920)加入MaxCompute開發(fā)者社區(qū)釘群與我們溝通交流。
總結(jié)
常用知識點
問題1:MaxCompute的數(shù)據(jù)類型有哪些?(單選題)
Hive兼容類型
1.0數(shù)據(jù)類型、2.0數(shù)據(jù)類型
1.0數(shù)據(jù)類型、2.0數(shù)據(jù)類型和Hive兼容類型
正確答案是1.0數(shù)據(jù)類型、2.0數(shù)據(jù)類型和Hive兼容類型。