給定一個分組列,分層采樣算法組件按照這些列的不同值,將輸入數據分成不同的組,并在每組中分別進行隨機采樣。
組件配置
您可以使用以下任意一種方式,配置分層采樣組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 分組列 | 選擇分組列字段,分層按照此列劃分。 |
參數設置 | 采樣個數 | 取值為正整數。 |
采樣比例 | 取值為浮點數,范圍(0,1)。 | |
隨機種子值 | 系統自動生成,默認值為1234567。 | |
執行調優 | 計算核心數 | 取值為正整數,默認系統自動分配。 |
每個核內存大小 | 取值為正整數,范圍(1, 65536),默認系統自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name StratifiedSample
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DstrataColName="label"
-DsampleSize="A:200,B:300,C:500"
-DrandomSeed=1007
-Dlifecycle=30;
參數名稱 | 是否必選 | 參數描述 | 默認值 |
inputTableName | 是 | 輸入表的名稱 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。支持以下格式:
說明 如果指定多個分區,則使用半角逗號(,)分隔。 | 所有分區 |
outputTableName | 是 | 輸出結果表 | 無 |
strataColName | 是 | 層次列,即按照此列作為key分層。 | 無 |
sampleSize | 否 | 采樣個數
說明
| 無 |
sampleRatio | 否 | 采樣比例
| 無 |
randomSeed | 否 | 隨機數種子,取值范圍為正整數。 | 123456 |
lifecycle | 否 | 輸出表的生命周期,取值范圍為[1,3650]。 | 無 |
coreNum | 否 | 計算的核心數目,取值范圍為正整數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心的內存(單位是MB),取值范圍為(1, 65536)。 | 系統自動分配 |