日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

聚類模型評(píng)估

基于原始數(shù)據(jù)和聚類結(jié)果,評(píng)估聚類模型的優(yōu)劣性,從而輸出評(píng)估指標(biāo)。

使用限制

僅原PAI-Studio平臺(tái)支持查看該組件的可視化報(bào)告。

背景信息

評(píng)估指標(biāo)Calinski-Harabasz又稱VRC(Variance Ratio Criterion),其計(jì)算公式如下。VRC公式

參數(shù)

描述

SSB

聚類之間的方差,定義如下。SSB其中:

  • k:聚類中心點(diǎn)的數(shù)量。

  • mi:聚類的中心點(diǎn)。

  • m:輸入數(shù)據(jù)的均值。

SSW

聚類內(nèi)的方差,定義如下。SSW其中:

  • k:聚類中心點(diǎn)的數(shù)量。

  • x:數(shù)據(jù)點(diǎn)。

  • ci:第i個(gè)聚類。

  • mi:聚類的中心點(diǎn)。

N

記錄的總數(shù)量。

k

聚類中心點(diǎn)的數(shù)量。

組件配置

您可以使用以下任意一種方式,配置聚類模型評(píng)估組件參數(shù)。

方式一:可視化方式

Designer工作流頁(yè)面配置組件參數(shù)。

頁(yè)簽

參數(shù)

描述

字段設(shè)置

參與評(píng)估列

參與評(píng)估的列名,該參數(shù)必須與模型存儲(chǔ)的特征列保持一致。

輸入為稀疏格式

使用KV格式表示稀疏數(shù)據(jù)。

kv鍵間分隔符

默認(rèn)為英文逗號(hào)(,)。

kv鍵內(nèi)分隔符

默認(rèn)為英文冒號(hào)(:)。

執(zhí)行調(diào)優(yōu)

核心數(shù)

與參數(shù)每個(gè)核的內(nèi)存大小搭配使用,取值范圍為正整數(shù)。

每個(gè)核的內(nèi)存大小

與參數(shù)核心數(shù)搭配使用,單位為MB。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本

PAI -name cluster_evaluation
    -project algo_public
    -DinputTableName=pai_cluster_evaluation_test_input
    -DselectedColNames=f0,f3
    -DmodelName=pai_kmeans_test_model
    -DoutputTableName=pai_ft_cluster_evaluation_out;

參數(shù)

是否必選

描述

默認(rèn)值

inputTableName

輸入表的名稱。

無(wú)

selectedColNames

輸入表中,參與評(píng)估的列名,多個(gè)列以英文逗號(hào)(,)分隔。該參數(shù)必須與模型存儲(chǔ)的特征列保持一致。

所有列

inputTablePartitions

輸入表中,參與訓(xùn)練的分區(qū)。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級(jí)格式

說(shuō)明

如果指定多個(gè)分區(qū),則使用英文逗號(hào)(,)分隔。

全表

enableSparse

輸入數(shù)據(jù)是否為稀疏格式,取值范圍為{true,false}

false

itemDelimiter

稀疏格式KV對(duì)之間的分隔符。

英文逗號(hào)(,)

kvDelimiter

稀疏格式keyvalue之間的分隔符。

英文冒號(hào)(;)

modelName

輸入的聚類模型。

無(wú)

outputTableName

輸出表。

無(wú)

lifecycle

輸出表的生命周期。

無(wú)

示例

  1. 使用SQL語(yǔ)句,生成測(cè)試數(shù)據(jù)。

    create table if not exists pai_cluster_evaluation_test_input as
    select * from
    (
      select 1 as id, 1 as f0,2 as f3
      union all
      select 2 as id, 1 as f0,3 as f3
      union all
      select 3 as id, 1 as f0,4 as f3
      union all
      select 4 as id, 0 as f0,3 as f3
      union all
      select 5 as id, 0 as f0,4 as f3
    )tmp;
  2. 使用PAI命令,構(gòu)建聚類模型(以K均值聚類為例)。

    PAI -name kmeans
        -project algo_public
        -DinputTableName=pai_cluster_evaluation_test_input
        -DselectedColNames=f0,f3
        -DcenterCount=3
        -Dloop=10
        -Daccuracy=0.00001
        -DdistanceType=euclidean
        -DinitCenterMethod=random
        -Dseed=1
        -DmodelName=pai_kmeans_test_model
        -DidxTableName=pai_kmeans_test_idx
  3. 使用PAI命令,提交聚類模型評(píng)估組件的參數(shù)。

    PAI -name cluster_evaluation
        -project algo_public
        -DinputTableName=pai_cluster_evaluation_test_input
        -DselectedColNames=f0,f3
        -DmodelName=pai_kmeans_test_model
        -DoutputTableName=pai_ft_cluster_evaluation_out;
  4. 查看評(píng)估輸出表pai_ft_cluster_evaluation_out,其可視化報(bào)告如下圖所示。統(tǒng)計(jì)結(jié)果表中各字段含義如下。

    表字段

    描述

    count

    總記錄數(shù)。

    centerCount

    聚類中心數(shù)。

    calinhara

    Calinski Harabasz指標(biāo)。