數(shù)據(jù)開發(fā)概述
DataWorks數(shù)據(jù)開發(fā)(DataStudio)模塊用于定義周期調(diào)度任務(wù)的開發(fā)及調(diào)度屬性,與運(yùn)維中心配合使用,面向各引擎(MaxCompute、Hologres、EMR等)提供可視化開發(fā)主界面,支持智能代碼開發(fā)、多引擎混編工作流、規(guī)范化任務(wù)發(fā)布等能力,幫助您輕松構(gòu)建離線數(shù)倉、實時數(shù)倉與即席分析系統(tǒng),保證數(shù)據(jù)生產(chǎn)的高效穩(wěn)定。
進(jìn)入數(shù)據(jù)開發(fā)
登錄DataWorks控制臺,切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對應(yīng)工作空間后單擊進(jìn)入數(shù)據(jù)開發(fā)。
數(shù)據(jù)開發(fā)主要功能
數(shù)據(jù)開發(fā)(DataStudio)的主要功能介紹如下。您可參考數(shù)據(jù)開發(fā)相關(guān)概念輔助理解。
類型 | 描述 |
對象組織及管理 | DataWorks數(shù)據(jù)開發(fā)提供的對象組織與管理機(jī)制如下:
更多詳情請參見創(chuàng)建業(yè)務(wù)流程、任務(wù)組織與管理方式。 說明 在數(shù)據(jù)開發(fā)(DataStudio)中,每個工作空間支持創(chuàng)建的業(yè)務(wù)流程及對象數(shù)量限制如下:
若當(dāng)前工作空間的業(yè)務(wù)流程及對象數(shù)量達(dá)到上限,您將無法再執(zhí)行新建操作。 |
任務(wù)開發(fā) |
DataWorks支持的節(jié)點類型,詳情請參見DataWorks節(jié)點合集。 |
任務(wù)調(diào)度 |
更多調(diào)度相關(guān)說明,詳情請參見時間屬性配置說明、調(diào)度依賴配置指引。 |
任務(wù)調(diào)試 | 提供單任務(wù)調(diào)試機(jī)制與基于業(yè)務(wù)流程的工作流調(diào)試機(jī)制。詳情請參見任務(wù)調(diào)試流程。 |
流程管控 | 提供規(guī)范化任務(wù)發(fā)布機(jī)制,及多種方式的流程管控機(jī)制。包括但不限于以下場景: |
其他 |
|
數(shù)據(jù)開發(fā)界面認(rèn)識
您可通過數(shù)據(jù)開發(fā)功能索引了解數(shù)據(jù)開發(fā)操作界面,以及各模塊功能如何使用。
任務(wù)開發(fā)流程
DataWorks數(shù)據(jù)開發(fā)支持創(chuàng)建多種類型引擎的實時同步任務(wù)、離線調(diào)度任務(wù)(包括離線同步任務(wù)、離線加工任務(wù))、手動觸發(fā)任務(wù)。其中,數(shù)據(jù)同步相關(guān)能力您可前往數(shù)據(jù)集成模塊了解;實際開發(fā)調(diào)度任務(wù)時,不同引擎任務(wù)的配置要求存在差異,您需先了解不同引擎基于DataWorks開發(fā)的注意事項及相關(guān)說明,再根據(jù)待開發(fā)的任務(wù)類型開始數(shù)據(jù)開發(fā)工作。
各引擎開發(fā)說明:DataWorks支持創(chuàng)建各種數(shù)據(jù)源并進(jìn)行引擎開發(fā)任務(wù),不同引擎任務(wù)所需的配置存在差異,其中主要引擎任務(wù)的開發(fā)說明請參見:
通用開發(fā)流程:DataWorks的工作空間分為標(biāo)準(zhǔn)模式和簡單模式,不同模式工作空間下調(diào)度任務(wù)的開發(fā)流程存在一定差異,具體如下。
標(biāo)準(zhǔn)模式工作空間開發(fā)流程。
簡單模式工作空間開發(fā)流程。
基本流程:以標(biāo)準(zhǔn)模式為例,調(diào)度任務(wù)的開發(fā)流程包括開發(fā)、調(diào)試、調(diào)度配置、提交、發(fā)布、運(yùn)維等階段。其中,任務(wù)開發(fā)的通用開發(fā)流程,請參見通用開發(fā)流程。
流程管控:任務(wù)在開發(fā)過程可結(jié)合數(shù)據(jù)開發(fā)(DataStudio)自帶的代碼評審、冒煙測試等功能,以及數(shù)據(jù)治理中心預(yù)設(shè)的檢查項、開放平臺基于擴(kuò)展程序?qū)崿F(xiàn)自定義邏輯校驗等功能,保障開發(fā)任務(wù)符合規(guī)范。
說明不同工作空間模式涉及的流程管控操作存在差異,具體請以實際管控功能為準(zhǔn)。
任務(wù)組織與管理方式
DataWorks數(shù)據(jù)開發(fā)的業(yè)務(wù)流程是具體代碼開發(fā)、資源組織的單位,是業(yè)務(wù)的抽象實體,幫助您使用業(yè)務(wù)視角來組織數(shù)據(jù)代碼開發(fā)。工作空間之間的業(yè)務(wù)流程、任務(wù)節(jié)點為獨(dú)立開發(fā),互不影響。更多關(guān)于業(yè)務(wù)流程的使用,詳情請參見創(chuàng)建業(yè)務(wù)流程。
業(yè)務(wù)流程的呈現(xiàn)包括目錄樹及操作面板兩種方式,幫助您基于業(yè)務(wù)視角組織代碼,使得資源類別更明確,業(yè)務(wù)邏輯更清晰。
目錄樹結(jié)構(gòu):提供基于任務(wù)類型的代碼組織方式。
業(yè)務(wù)流程面板:提供流程化的業(yè)務(wù)邏輯展現(xiàn)方式。
附錄:數(shù)據(jù)開發(fā)支持的節(jié)點合集
DataWorks的數(shù)據(jù)開發(fā)(DataStudio)模塊提供了多種類型節(jié)點,同時,多種類型節(jié)點支持周期性任務(wù)調(diào)度,您可基于業(yè)務(wù)需要選擇合適的節(jié)點進(jìn)行相關(guān)開發(fā)操作。DataWorks支持的節(jié)點合集,詳情請參見DataWorks節(jié)點合集。
附錄:數(shù)據(jù)開發(fā)相關(guān)概念
任務(wù)開發(fā)相關(guān)。
概念
描述
解決方案
業(yè)務(wù)流程的集合。您可將一類業(yè)務(wù)流程劃分為一個解決方案進(jìn)行統(tǒng)籌管理。一個業(yè)務(wù)流程可被多個解決方案復(fù)用。進(jìn)行數(shù)據(jù)開發(fā)時,其他用戶可在其它解決方案中,直接編輯您解決方案中引用的業(yè)務(wù)流程,進(jìn)行協(xié)同開發(fā)。
業(yè)務(wù)流程
面向某一特定業(yè)務(wù)需求的任務(wù)、表、資源、函數(shù)的集合,業(yè)務(wù)的抽象實體。該類業(yè)務(wù)流程中的任務(wù)可按計劃定時觸發(fā)運(yùn)行。
手動業(yè)務(wù)流程
面向某一特定業(yè)務(wù)需求的任務(wù)、表、資源、函數(shù)的集合。
手動業(yè)務(wù)流程與業(yè)務(wù)流程的區(qū)別為:手動業(yè)務(wù)流程中的任務(wù)需手動觸發(fā)運(yùn)行,而業(yè)務(wù)流程中的任務(wù)是按計劃來定時觸發(fā)運(yùn)行。
DAG
英文
Directed Acyclic Graph
的縮寫,即有向無環(huán)圖。用于展示節(jié)點及其依賴關(guān)系。在數(shù)據(jù)開發(fā)(DataStudio)中,業(yè)務(wù)流程下的所有任務(wù)會展示在同一個DAG中,方便您進(jìn)行任務(wù)開發(fā)及依賴關(guān)系配置。任務(wù)
任務(wù)是DataWorks的基本執(zhí)行單元。DataWorks根據(jù)任務(wù)間的依賴關(guān)系依次執(zhí)行各個任務(wù)。
節(jié)點
節(jié)點用于指代DAG中的一個任務(wù)。DataWorks根據(jù)節(jié)點間的依賴關(guān)系依次運(yùn)行各個節(jié)點。
任務(wù)調(diào)度相關(guān)。
概念
描述
依賴關(guān)系
任務(wù)間通過依賴關(guān)系定義任務(wù)的運(yùn)行順序。如果節(jié)點A運(yùn)行后,節(jié)點B才能運(yùn)行,我們稱A是B的上游依賴,或者B依賴A。在DAG中,依賴關(guān)系用節(jié)點間的箭頭表示。
輸出名
用于區(qū)分本節(jié)點與其他節(jié)點的標(biāo)識符。輸出名全局唯一,一個節(jié)點可包含多個輸出名。DataWorks通過輸出名設(shè)置節(jié)點調(diào)度依賴關(guān)系。
輸出表名
輸出表名建議配置為當(dāng)前任務(wù)的產(chǎn)出表,正確填寫輸出表名可以方便下游設(shè)置依賴時確認(rèn)數(shù)據(jù)是否來自期望的上游表。自動解析生成輸出表名時不建議手動修改,輸出表名僅作為標(biāo)識,修改輸出表名不會影響SQL腳本實際產(chǎn)出的表名,實際產(chǎn)出表名以SQL邏輯為準(zhǔn)。
說明節(jié)點的輸出名需要全局唯一,而輸出表名無此限制。
調(diào)度資源組
指用于任務(wù)調(diào)度的資源組。資源組介紹詳情請參見DataWorks資源組概述。
調(diào)度參數(shù)
調(diào)度參數(shù)是代碼中用于調(diào)度運(yùn)行時動態(tài)取值的變量。代碼在重復(fù)運(yùn)行時若希望獲取到運(yùn)行環(huán)境的一些信息,例如日期、時間等,可根據(jù)DataWorks調(diào)度系統(tǒng)的調(diào)度參數(shù)定義,動態(tài)為代碼中的變量賦值。
業(yè)務(wù)日期
指昨天,在離線計算場景下,交易日期為業(yè)務(wù)發(fā)生的日期。DataWorks默認(rèn)取調(diào)度時間內(nèi),任務(wù)預(yù)期調(diào)度運(yùn)行時間的前一天(即昨天)的日期為業(yè)務(wù)日期,精確到天。例如,今天統(tǒng)計前一天的營業(yè)額,此處的前一天,指交易發(fā)生的日期,也就是業(yè)務(wù)日期。
定時時間
指今天,即某業(yè)務(wù)數(shù)據(jù)加工任務(wù)的預(yù)期執(zhí)行時間。DataWorks默認(rèn)取調(diào)度時間內(nèi),任務(wù)預(yù)期調(diào)度運(yùn)行的時間點(即今天)為定時時間,精確到秒。任務(wù)預(yù)期執(zhí)行時間,與實際開始執(zhí)行時間并非完全一致。任務(wù)實際開始執(zhí)行時間受多方因素影響。