多表合并
本文介紹多表合并算子的使用方法及注意事項。
用途
多表合并算子可以將多張數(shù)據(jù)表按照設(shè)置的對齊字段進行數(shù)據(jù)合并。多表合并算子是兩表并集算子的高級版本,滿足多張數(shù)據(jù)表合并的需求。
適用場景
計算鏈路 | 計算引擎 | 是否支持 |
離線 | MaxCompute | 是 |
Hive | 是 | |
HiveStorage | 是 | |
RDS/MySQL | 是 | |
Spark | 是 |
使用說明
來源節(jié)點
多表合并算子必須指定2個或者2個以上的來源節(jié)點(又稱為輸入節(jié)點,每個來源節(jié)點可視為一張表),以求取這些來源節(jié)點數(shù)據(jù)合并的結(jié)果。
對齊字段
指定全部來源節(jié)點的1個或者多個字段作為數(shù)據(jù)合并的對齊字段。數(shù)據(jù)合并的結(jié)果中將包含全部來源節(jié)點中的指定對齊字段的所有記錄。
示例如下所示,假設(shè)三個輸入節(jié)點分別為A、B、C,設(shè)置兩個對齊條件為"A.ID <=> B.ID <=> C.ID"、 "A.NAME <=> B.NAME <=> C.NAME",則多表合并默認(rèn)運算結(jié)果、去重合并后的運算結(jié)果如下圖右側(cè)所示。
快速對齊
系統(tǒng)提供快速填充對齊條件的輔助工具,點擊快速對齊后,系統(tǒng)自動將來源節(jié)點中相同的字段配置為對齊字段。
輸出字段
對齊字段列表將自動作為當(dāng)前節(jié)點的輸出字段,輸出到下游節(jié)點。可以對字段名稱和字段代碼進行重新命名。
去重合并
多表合并算子默認(rèn)不做去重合并,輸出的數(shù)據(jù)包含來源節(jié)點的所有記錄。勾選去重合并后,節(jié)點的輸出數(shù)據(jù)將會過濾重復(fù)的記錄。去重合并的效果示例參考對齊字段中的示意圖。