日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

標簽傳播分類

標簽傳播分類為半監(jiān)督的分類算法,原理為用已標記節(jié)點的標簽信息去預測未標記節(jié)點的標簽信息。標簽傳播分類組件能夠輸出圖中所有節(jié)點對應的標簽及其權重占比。

算法說明

在算法執(zhí)行過程中,每個節(jié)點的標簽按相似度傳播給相鄰節(jié)點,在節(jié)點傳播的每一步,每個節(jié)點根據(jù)相鄰節(jié)點的標簽來更新自己的標簽。與該節(jié)點相似度越大,其相鄰節(jié)點對其標注的影響權值越大,相似節(jié)點的標簽越趨于一致,其標簽就越容易傳播。在標簽傳播過程中,保持已標注數(shù)據(jù)的標簽不變,使其像一個源頭把標簽傳向未標注數(shù)據(jù)。最終,當?shù)^程結束時,相似節(jié)點的概率分布也趨于相似,可以劃分到同一個類別中,從而完成標簽傳播過程。

配置組件

方法一:可視化方式

在Designer工作流頁面添加標簽傳播分類組件,并在界面右側配置相關參數(shù):

參數(shù)類型

參數(shù)

描述

字段設置

頂點表:選擇頂點列

點表的點所在列。

頂點表:選擇標簽列

點表的點的標簽所在列。

頂點表:選擇權值列

點表的點的權重所在列。

邊表:選擇源頂點列

邊表的起點所在列。

邊表:選擇目標頂點列

邊表的終點所在列。

邊表:選擇權值列

邊表邊的權重所在列。

參數(shù)設置

最大迭代次數(shù)

最大迭代次數(shù),默認值為30。

阻尼系數(shù)

阻尼系數(shù),默認值為0.8。

收斂系數(shù)

收斂系數(shù),默認值為0.000001。

執(zhí)行調優(yōu)

進程數(shù)

作業(yè)并行執(zhí)行的節(jié)點數(shù)。數(shù)字越大并行度越高,但是框架通訊開銷會增大。

進程內存

單個作業(yè)可使用的最大內存量,單位:MB,默認值為4096。

如果實際使用內存超過該值,會拋出OutOfMemory異常。

方法二:PAI命令方式

使用PAI命令配置標簽傳播分類組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見場景4:在SQL腳本組件中執(zhí)行PAI命令

PAI -name LabelPropagationClassification
    -project algo_public
    -DinputEdgeTableName=LabelPropagationClassification_func_test_edge
    -DfromVertexCol=flow_out_id
    -DtoVertexCol=flow_in_id
    -DinputVertexTableName=LabelPropagationClassification_func_test_node
    -DvertexCol=node
    -DvertexLabelCol=label
    -DoutputTableName=LabelPropagationClassification_func_test_result
    -DhasEdgeWeight=true
    -DedgeWeightCol=edge_weight
    -DhasVertexWeight=true
    -DvertexWeightCol=label_weight
    -Dalpha=0.8
    -Depsilon=0.000001;

參數(shù)

是否必選

默認值

描述

inputEdgeTableName

輸入邊表名。

inputEdgeTablePartitions

全表讀入

輸入邊表的分區(qū)。

fromVertexCol

輸入邊表的起點所在列。

toVertexCol

輸入邊表的終點所在列。

inputVertexTableName

輸入點表名稱。

inputVertexTablePartitions

全表讀入

輸入點表的分區(qū)。

vertexCol

輸入點表的點所在列。

outputTableName

輸出表名。

outputTablePartitions

輸出表的分區(qū)。

lifecycle

輸出表的生命周期。

workerNum

未設置

作業(yè)并行執(zhí)行的節(jié)點數(shù)。數(shù)字越大并行度越高,但是框架通訊開銷會增大。

workerMem

4096

單個作業(yè)可使用的最大內存量,單位:MB,默認值為4096。

如果實際使用內存超過該值,會拋出OutOfMemory異常。

splitSize

64

數(shù)據(jù)切分的大小,單位:MB。

hasEdgeWeight

false

輸入邊表的邊是否有權重。

edgeWeightCol

輸入邊表邊的權重所在列。

hasVertexWeight

false

輸入點表的點是否有權重。

vertexWeightCol

輸入點表的點的權重所在列。

alpha

0.8

阻尼系數(shù)。

epsilon

0.000001

收斂系數(shù)。

maxIter

30

最大迭代次數(shù)。

使用示例

  1. 添加SQL腳本組件,輸入以下SQL語句生成訓練數(shù)據(jù)。

    drop table if exists LabelPropagationClassification_func_test_edge;
    create table LabelPropagationClassification_func_test_edge as
    select * from
    (
        select 'a' as flow_out_id, 'b' as flow_in_id, 0.2 as edge_weight
        union all
        select 'a' as flow_out_id, 'c' as flow_in_id, 0.8 as edge_weight
        union all
        select 'b' as flow_out_id, 'c' as flow_in_id, 1.0 as edge_weight
        union all
        select 'd' as flow_out_id, 'b' as flow_in_id, 1.0 as edge_weight
    )tmp
    ;
    drop table if exists LabelPropagationClassification_func_test_node;
    create table LabelPropagationClassification_func_test_node as
    select * from
    (
        select 'a' as node,'X' as label, 1.0 as label_weight
        union all
        select 'd' as node,'Y' as label, 1.0 as label_weight
    )tmp;

    對應的數(shù)據(jù)結構圖:

    image

  2. 添加SQL腳本組件,輸入以下PAI命令進行訓練。

    drop table if exists ${o1};
    PAI -name LabelPropagationClassification
        -project algo_public
        -DinputEdgeTableName=LabelPropagationClassification_func_test_edge
        -DfromVertexCol=flow_out_id
        -DtoVertexCol=flow_in_id
        -DinputVertexTableName=LabelPropagationClassification_func_test_node
        -DvertexCol=node
        -DvertexLabelCol=label
        -DoutputTableName=${o1}
        -DhasEdgeWeight=true
        -DedgeWeightCol=edge_weight
        -DhasVertexWeight=true
        -DvertexWeightCol=label_weight
        -Dalpha=0.8
        -Depsilon=0.000001;
  3. 右擊上一步的組件,選擇查看數(shù)據(jù) > SQL腳本的輸出,查看訓練結果。

    | node | tag | weight              |
    | ---- | --- | ------------------- |
    | a    | X   | 1.0                 |
    | c    | X   | 0.5370370370370371  |
    | c    | Y   | 0.4629629629629629  |
    | b    | X   | 0.16666666666666666 |
    | b    | Y   | 0.8333333333333333  |
    | d    | Y   | 1.0                 |