在普通的MaxCompute MR(MapReduce)組件上增加了多日期循環執行功能,用于并行執行某段時間內天級別MR任務。例如在推薦算法定制場景中,并行執行過去30天的EasyRecFGMapper任務。
使用限制
僅支持天級別的補數據循環。
在使用時按照需要打開或關閉多日期循環執行開關,在整個工作流發布至周期性調度之前切記關閉多日期循環執行開關,避免生產環境下產生不需要的重復執行補數據任務。
節點上配置的并發數僅能控制當前節點的并發,如果有多個節點都需要補數據,需要您自己統一考慮當前項目資源支持的總并發數。
可視化配置組件參數
Designer僅支持通過可視化方式,配置該組件參數,參數詳情如下表所示。
頁簽 | 參數 | 描述 |
參數設置 | 業務基準日期 | 支持以下兩種配置方式:
|
是否打開多日期循環執行 | 默認打開多日期循環執行。如果不打開多日期循環執行,則該組件退化為普通的MR組件。 | |
執行時間窗口 | 支持配置整數和開閉區間,多個區間使用半角逗號(,)分隔。 配置后會從業務基準日期計算出每個窗口對應的日期段,總計啟動N個子任務,且N不超過100。 例如:執行時間窗口配置為 | |
最大并發數 | 默認值為3,避免一次性提交大量并發任務打滿資源。 | |
日期格式 | 支持配置以下三種時間格式,用于生成
例如:選擇yyyy-MM-dd,則在示例參數中替換 | |
資源OSS路徑 | 資源文件所在目錄。 | |
資源文件列表 | 多個資源文件以半角逗號(,)隔開。 | |
classpath的oss路徑 | JAR文件路徑。 | |
Main class | Main class的完整路徑。 | |
MR任務輸入參數 | 如果打開了多日期循環執行,切記在需要循環的日期字段處,引用系統變量${pai.system.cycledate}。 在實際執行時,按照當前示例中的配置會并行啟動3個任務,其他功能同普通MR腳本組件。 |
使用示例
請參考推薦算法定制-向量召回案例的節點 2_rec_sln_demo_dssm_recall_vector_recall_sample_fg_encoded_v1,該節點使用了時間窗口MR腳本組件。