日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

分層采樣

給定一個分組列,分層采樣算法組件按照這些列的不同值,將輸入數據分成不同的組,并在每組中分別進行隨機采樣。

組件配置

您可以使用以下任意一種方式,配置分層采樣組件參數。

方式一:可視化方式

Designer工作流頁面配置組件參數。

頁簽

參數

描述

字段設置

分組列

選擇分組列字段,分層按照此列劃分。

參數設置

采樣個數

取值為正整數。

采樣比例

取值為浮點數,范圍(0,1)

隨機種子值

系統自動生成,默認值為1234567。

執行調優

計算核心數

取值為正整數,默認系統自動分配。

每個核內存大小

取值為正整數,范圍(1, 65536),默認系統自動分配。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本

PAI -name StratifiedSample
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DstrataColName="label"
    -DsampleSize="A:200,B:300,C:500"
    -DrandomSeed=1007
    -Dlifecycle=30;

參數名稱

是否必選

參數描述

默認值

inputTableName

輸入表的名稱

inputTablePartitions

輸入表中,參與訓練的分區。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級格式

說明

如果指定多個分區,則使用半角逗號(,)分隔。

所有分區

outputTableName

輸出結果表

strataColName

層次列,即按照此列作為key分層。

sampleSize

采樣個數

  • 正整數:表示每個層的采樣個數。

  • 字符串:格式為strata0:n0,strata1:n1,表示每個層分別配置的采樣個數。

說明
  • 當sampleSize與sampleRatio都為空時,系統會報錯。

  • 當sampleSize與sampleRatio都不為空時,以sampleSize為準。

sampleRatio

采樣比例

  • 數字:范圍(0,1),表示每個stratum的采樣比例。

  • 字符串:格式為strata0:r0,strata1:r1,表示每個層分別配置采樣比例。

randomSeed

隨機數種子,取值范圍為正整數。

123456

lifecycle

輸出表的生命周期,取值范圍為[1,3650]

coreNum

計算的核心數目,取值范圍為正整數。

系統自動分配

memSizePerCore

每個核心的內存(單位是MB),取值范圍為(1, 65536)

系統自動分配