DataWorks的Check節點可用于檢查目標對象(MaxCompute分區表、FTP文件、OSS文件、HDFS文件、OSS_HDFS文件以及實時同步任務)是否可用,當Check節點滿足檢查策略后會返回運行成功狀態。如果某任務的運行依賴目標對象,您可使用Check節點檢查目標對象,并設置該任務為Check節點的下游任務,當Check節點滿足檢查策略后,便會運行成功并觸發下游任務執行。本文為您介紹Check節點支持檢查的對象、具體的檢查策略、以及如何配置Check節點。
支持檢查的對象及檢查策略
Check節點目前僅支持檢查數據源和實時同步任務。檢查策略如下:
數據源
MaxCompute分區表
說明支持MaxCompute分區表,不支持檢查MaxCompute非分區表。
Check節點提供了如下兩種檢查策略,輔助您判斷MaxCompute分區表數據是否已達到可用狀態。
策略一:檢查目標分區是否存在
如果Check節點檢查到MaxCompute分區表的目標分區已存在,則平臺即認為MaxCompute分區表數據產出完成,已可用。
策略二:檢查目標分區在指定時長是否有更新
如果Check節點檢查到MaxCompute分區表的目標分區在指定時長內未更新,則表示該分區的數據已產出完成,平臺即認為MaxCompute分區表數據已可用。
FTP、OSS、HDFS或OSS_HDFS文件
如果Check節點檢查到目標FTP文件、OSS文件、HDFS文件或OSS_HDFS文件存在,則平臺即認為該文件已可用。
實時同步任務
以Check節點的調度啟動時間點為判斷時間,如果檢測到實時同步任務已完成該時間點及之前的數據寫入,則平臺認為實時同步任務檢查成功。
除此之外,您還需指定Check節點的檢查時間間隔(即每次檢查后需要多久才會觸發下一次檢查)與停止檢查條件(即檢查次數上限或檢查截止時間),若任務到達檢查次數上限或檢查截止時間仍未檢查通過,Check節點將失敗退出。具體策略配置,請參見步驟二:配置檢查策略。
Check節點可實現周期性檢查目標對象,您需根據預期的開始檢查時間,配置Check節點的定時調度時間。當滿足調度運行條件后,Check節點將一直處于運行中狀態直至滿足檢查條件返回成功,或由于長時間未檢查通過而返回失敗。調度配置,詳情請參見步驟三:配置任務調度。
使用限制
資源組限制
支持Serverless資源組(推薦)或舊版獨享調度資源組運行Check節點任務。如需購買使用Serverless資源組,詳情請參見新增和使用Serverless資源組。
節點功能限制
一個Check節點僅支持檢查一個對象,若您的任務依賴了多個對象(例如,某任務依賴多個MaxCompute分區表),則需創建多個Check節點分別校驗相應對象。
Check節點的檢查時間間隔最小為
1
分鐘,最大為30
分鐘。
DataWorks版本限制
僅支持DataWorks專業版及以上版本使用Check節點。低版本DataWorks可參考版本升級說明升級。
前提條件
Check節點基于數據源進行校驗時,使用Check節點前,請先根據要檢查的對象類別創建好對應數據源,具體如下。
檢查對象類別
相關準備操作
參考文檔
MaxCompute分區表
已創建MaxCompute數據源并綁定至數據開發(DataStudio)。
在DataWorks中,您需先將MaxCompute項目創建為DataWorks的MaxCompute數據源,才可通過該數據源訪問相應MaxCompute項目的數據。
已創建MaxCompute分區表。
FTP文件
已創建FTP數據源。
在DataWorks中,您需先將FTP服務創建為DataWorks的FTP數據源,才可通過該數據源訪問相應FTP服務的數據。
OSS文件
已創建OSS數據源且數據源訪問模式為Access Key。
在DataWorks中,您需要先將OSS的Bucket創建為DataWorks的OSS數據源,才可通過該數據源訪問相應Bucket中的數據。
說明目前僅支持在Check節點中通過Access Key模式訪問OSS數據源,RAM角色授權模式配置的OSS數據源無法用于Check節點。
HDFS文件
已創建HDFS數據源。
在DataWorks中,您需先將HDFS文件創建為DataWorks的HDFS數據源,才可通過該數據源訪問相應HDFS文件數據。
OSS_HDFS文件
已創建OSS_HDFS數據源。
在DataWorks中,您需先將OSS_HDFS服務創建為DataWorks的OSS_HDFS數據源,才可通過該數據源訪問相應OSS_HDFS服務的數據。
Check節點基于實時同步任務進行校驗時,僅支持Kafka到MaxCompute的實時同步任務。使用Check節點前,請先創建好對應實時同步任務,詳情請參見DataStudio側實時同步任務配置。
步驟一:創建Check節點
進入數據開發頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
單擊圖標,選擇
。根據界面指引,輸入節點的路徑、名稱等信息。
步驟二:配置檢查策略
您可根據業務需要,選擇使用Check節點檢查數據源或實時同步任務,并配置相應策略。
數據源
配置MaxCompute分區表的檢查策略
參數說明如下。
參數 | 描述 |
數據源類型 | 選擇MaxCompute。 |
數據源名稱 | 待檢查的MaxCompute分區表所在的數據源。 如果沒有可用的數據源,您可單擊新建數據源創建。創建MaxCompute數據源,詳情請參見創建MaxCompute數據源。 |
表名 | 待檢查的MaxCompute分區表。 說明 僅支持選擇所選數據源下的MaxCompute分區表。 |
分區 | 待檢查的MaxCompute表的分區。 配置表名參數后,您可先預覽表信息,查看分區名稱;也可使用調度參數獲取分區名稱,調度參數的使用,詳情請參見調度參數支持的格式。 |
Check通過條件 | 定義分區表的檢查方式及通過條件。您可選擇使用如下兩種方式檢查:
|
Chcek停止策略 | 用于配置Check節點任務的停止檢查策略。您可設置停止檢查時間或停止檢查次數,并支持配置檢查頻率:
|
配置FTP文件的檢查策略
參數說明如下。
參數 | 描述 |
數據源類型 | 選擇FTP。 |
數據源名稱 | 待檢查的FTP文件所在的數據源。 如果沒有可用的數據源,您可單擊新建數據源創建。創建FTP數據源,請參見FTP數據源。 |
文件路徑 | 待檢查的FTP文件路徑,例如, 若檢查到輸入的路徑存在,則表示該路徑的同名文件存在。 您可直接輸入路徑,也可使用調度參數獲取路徑。調度參數的使用,請參見調度參數支持的格式。 |
Check通過條件 | 定義FTP文件的檢查通過條件。
|
Chcek停止策略 | 用于配置Check節點任務的停止檢查策略。您可設置停止檢查時間或停止檢查次數,并支持配置檢查頻率:
|
配置OSS文件的檢查策略
參數說明如下。
參數 | 描述 |
數據源類型 | 選擇OSS。 |
數據源名稱 | 待檢查的OSS文件所在的數據源。 如果沒有可用的數據源,您可單擊新建數據源創建。創建OSS數據源,請參見OSS數據源。 |
文件路徑 | 待檢查的OSS文件所在路徑。您可登錄對象存儲OSS控制臺,進入目標Bucket詳情頁,在 頁面查看。 格式遵循OSS文件路徑的格式定義:
說明 選擇數據源后,平臺將默認使用數據源中配置的Bucket。因此,路徑中無需再輸入Bucket信息。輸入路徑后,您可單擊查看完整路徑,查看開發環境OSS數據源的Endpoint和Bucket信息。 |
Check通過條件 | 定義OSS文件的檢查通過條件。
|
Chcek停止策略 | 用于配置Check節點任務的停止檢查策略。您可設置停止檢查時間或停止檢查次數,并支持配置檢查頻率:
|
配置HDFS文件的檢查策略
參數說明如下。
參數 | 描述 |
數據源類型 | 選擇HDFS。 |
數據源名稱 | 待檢查的HDFS文件所在的數據源。 如果沒有可用的數據源,您可單擊新建數據源創建。創建HDFS數據源,請參見HDFS數據源。 |
文件路徑 | 待檢查的HDFS文件路徑,例如, 若檢查到輸入的路徑存在,則表示該路徑的同名文件存在。 您可直接輸入路徑,也可使用調度參數獲取路徑。調度參數的使用,請參見調度參數支持的格式。 |
Check通過條件 | 定義HDFS文件的檢查通過條件。
|
Chcek停止策略 | 用于配置Check節點任務的停止檢查策略。您可設置停止檢查時間或停止檢查次數,并支持配置檢查頻率:
|
配置OSS_HDFS文件的檢查策略
參數說明如下。
參數 | 描述 |
數據源類型 | 選擇OSS_HDFS。 |
數據源名稱 | 待檢查的OSS_HDFS文件所在的數據源。 如果沒有可用的數據源,您可單擊新建數據源創建。創建OSS_HDFS數據源,請參見OSS-HDFS數據源。 |
文件路徑 | 待檢查的OSS_HDFS文件路徑。您可登錄對象存儲OSS控制臺,進入目標Bucket詳情頁,在 頁面查看。 格式遵循OSS_HDFS文件路徑的格式定義:
|
Check通過條件 | 定義OSS_HDFS文件的檢查通過條件。
|
Chcek停止策略 | 用于配置Check節點任務的停止檢查策略。您可設置停止檢查時間或停止檢查次數,并支持配置檢查頻率:
|
實時同步任務
參數說明如下。
參數 | 描述 |
Check對象 | 選擇實時同步任務。 |
實時同步任務 | 待檢查的實時同步任務。 說明
|
Chcek停止策略 | 用于配置Check節點任務的停止檢查策略。您可設置停止檢查時間或停止檢查次數,并支持配置檢查頻率:
|
步驟三:配置任務調度
如您需要周期性使用Check節點進行分區數據檢查,可單擊節點編輯頁面右側的調度配置,根據業務需求配置該節點任務的調度信息。詳情請參見任務調度屬性配置概述。
Check節點與普通調度節點一樣,需設置調度依賴、調度時間等調度信息。DataWorks上每個節點均需擁有上游依賴,若Check節點無實際上游依賴,您可根據空間業務復雜度選擇依賴虛擬節點或直接依賴工作空間根節點,詳情請參見虛擬節點。
您需設置節點的重跑屬性和依賴的上游節點,才可提交節點。
步驟四:提交發布任務
節點任務配置完成后,需執行提交發布操作,提交發布后節點即會根據調度配置內容進行周期性運行。
單擊工具欄中的圖標,保存節點。
單擊工具欄中的圖標,提交節點任務。
提交時需在提交對話框中輸入變更描述,并根據需要選擇是否在節點提交后執行代碼評審及冒煙測試。
如您使用的是標準模式的工作空間,任務提交成功后,還需單擊節點編輯頁面右上方的發布,將該任務發布至生產環境執行,操作請參見發布任務。
后續操作
Check節點提交發布至生產運維中心后,會基于節點的配置周期性運行檢查,您可通過DataWorks的運維中心查看檢查結果并進行相關運維操作,詳情請參見周期任務基本運維操作。