隨機采樣算法組件按照給定的比例或者數(shù)目,對輸入進行隨機采樣,每次采樣是各自獨立的。
組件配置
您可以使用以下任意一種方式,配置隨機采樣組件參數(shù)。
方式一:可視化方式
在隨機采樣工作流頁面配置組件參數(shù)。
頁簽 | 參數(shù) | 描述 |
參數(shù)設置 | 采樣個數(shù) | 取值為正整數(shù)。 |
采樣比例 | 取值為浮點數(shù),范圍(0,1)。 | |
放回采樣 | 默認為不放回,勾選后變?yōu)榉呕亍?/p> | |
隨機數(shù)種子 | 默認系統(tǒng)自動生成。 | |
執(zhí)行調優(yōu) | 核心數(shù) | 取值為正整數(shù),默認系統(tǒng)自動分配。 |
核內存分配 | 取值為正整數(shù),單位為MB,范圍(1, 65536),默認系統(tǒng)自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name RandomSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
參數(shù)名稱 | 是否必選 | 參數(shù)描述 | 默認值 |
inputTableName | 是 | 輸入表的名稱 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區(qū)。支持以下格式:
說明 如果指定多個分區(qū),則使用半角逗號(,)分隔。 | 無 |
outputTableName | 是 | 輸出結果表 | 無 |
sampleSize | 否 | 采樣個數(shù) 說明
| 無 |
sampleRatio | 否 | 采樣比例,浮點數(shù),范圍(0,1)。 | 無 |
replace | 否 | 是否放回,BOOLEAN類型。 | false |
randomSeed | 否 | 隨機數(shù)種子,取值范圍為正整數(shù)。 | 系統(tǒng)自動分配 |
lifecycle | 否 | 輸出表的生命周期,取值范圍為[1,3650]。 | 無 |
coreNum | 否 | 計算的核心數(shù)目,取值范圍為正整數(shù)。 | 系統(tǒng)自動分配 |
memSizePerCore | 否 | 每個核心的內存(單位是MB),取值范圍為(1, 65536)。 | 系統(tǒng)自動分配 |