日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

本文為您介紹Designer提供的拆分算法。拆分是對數據進行隨機拆分,用于生成訓練和測試集。

組件配置

您可以使用以下任意一種方式,配置拆分組件參數。

方式一:可視化方式

Designer工作流頁面配置組件參數。

頁簽

參數

描述

參數設置

拆分方式

  • 按比例拆分

  • 按閾值拆分

切分比例

取值范圍為(0,1)

隨機數種子

系統默認生成。

ID列(ID列相同的不會被拆分)

ID列中,內容相同的行數據不會被拆分,會被全量隨機分配到輸出表1輸出表2中。

說明

勾選高級選項時展示,僅支持選擇單列。

閾值列

選擇某個列名,對該列內容按閾值拆分,不支持String列。

閾值

參考閾值列內容,配置拆分閾值。輸出表1中的數據均小于閾值。輸出表2中的數據均大于或等于閾值。

重要

您在使用按閾值拆分方式時,請先清空按比例拆分方式配置的切分比例字段內容。

執行調優

計算核心數

系統根據輸入數據量,自動分配訓練的實例數量。

每個核內存數

系統根據輸入數據量,自動分配內存。單位為MB。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本

PAI -name split -project algo_public
    -DinputTableName=wbpc
    -Doutput1TableName=wpbc_split1
    -Doutput2TableName=wpbc_split2
    -Dfraction=0.25;

參數名稱

是否必選

參數描述

默認值

inputTableName

輸入表的表名。

inputTablePartitions

輸入表中,參與訓練的分區。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級格式

說明

如果指定多個分區,則使用英文逗號(,)分隔。

所有分區

output1TableName

輸出結果表1。

output1TablePartition

輸出結果表1分區名。

輸出表1為非分區表

output2TableName

輸出結果表2。

output2TablePartition

輸出結果表2分區名。

輸出表2為非分區表

fraction

切分至輸出表1的數據比例,取值范圍為(0,1)

randomSeed

隨機數種子,取值范圍為正整數。

系統自動分配

idColName

ID列(ID相同的數據不會被拆分)

thresholdColName

閾值所在列名,不支持String列。

threshold

閾值。

lifecycle

輸出表的生命周期,取值范圍為[1,3650]

coreNum

核心數量。

系統自動分配

memSizePerCore

每個核心的內存(單位是兆),取值范圍為(1, 65536)

系統自動分配