日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

主題模型用于在一系列文檔中發(fā)現(xiàn)抽象主題(topic)的一種統(tǒng)計模型,在PAI平臺,您可以通過給PLDA組件設(shè)置topic參數(shù)值,從而讓每篇文檔抽象出不同主題。

LDA(Latent Dirichlet allocation)是一種主題模型,它可以按照概率分布的形式給出文檔集中每篇文檔的主題。LDA也是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時您無需手工標注的訓(xùn)練集,僅需要在文檔集中指定主題的數(shù)量K即可(K即為PLDA參數(shù)topic)。

LDA首先由David M. Blei、Andrew Y. Ng和Michael I. Jordan于2003年提出,在文本挖掘領(lǐng)域應(yīng)用于文本主題識別、文本分類和文本相似度計算等方面。

組件配置

您可以使用以下任意一種方式,配置PLDA組件參數(shù)。

方式一:可視化方式

Designer工作流頁面配置組件參數(shù)。

表 1. 參數(shù)說明

頁簽

參數(shù)

參數(shù)描述

字段設(shè)置

選擇特征列

選擇參與訓(xùn)練的特征列。

參數(shù)設(shè)置

主題個數(shù)

設(shè)置LDA的輸出的主題個數(shù)。

Alpha

P(z/d) 的先驗狄利克雷分布的參數(shù)。

beta

P(w/z) 的先驗狄利克雷分布的參數(shù)。

burn In 迭代次數(shù)

Burn In 迭代次數(shù),必須小于總迭代次數(shù),默認值為100。

總迭代次數(shù)

正整數(shù),非必選,默認值為150。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用,詳情請參見SQL腳本


    -project algo_public
    -DinputTableName=lda_input
    –DtopicNum=10
    -topicWordTableName=lda_output;

參數(shù)名稱

是否必選

描述

類型

默認值

inputTableName

輸入表的名稱。

STRING

inputTablePartitions

輸入表中,參與訓(xùn)練的分區(qū)。系統(tǒng)支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多級分區(qū)

說明

指定多個分區(qū)時,分區(qū)之間使用英文逗號(,)分隔。

STRING

輸入表的所有分區(qū)

selectedColNames

輸入表中用于LDA的列名。

STRING

輸入表中所有的列名

topicNum

Topic的數(shù)量,取值范圍為[2, 500]

正整數(shù)

kvDelimiter

Key和Value間的分隔符。取值:

  • 空格

  • 英文逗號(,)

  • 英文冒號(:)

STRING

英文冒號(:)

itemDelimiter

Key和Key間的分隔符。取值:

  • 空格

  • 英文逗號(,)

  • 英文冒號(:)

STRING

空格

alpha

P(z/d)的先驗狄利克雷分布的參數(shù)。取值為(0, ∞)

FLOAT

0.1

beta

P(w/z)的先驗狄利克雷分布的參數(shù)。取值為(0, ∞)

FLOAT

0.01

topicWordTableName

topic-word頻率貢獻表。

STRING

pwzTableName

P(w/z)輸出表。

STRING

無,即不輸出P(w/z)

pzwTableName

P(z/w)輸出表。

STRING

無,即不輸出P(z/w)

pdzTableName

P(d/z)輸出表。

STRING

無,即不輸出P(d/z)

pzdTableName

P(z/d)輸出表。

STRING

無,即不輸出P(z/d)

pzTableName

P(z)輸出表。

STRING

無,即不輸出P(z)

burnInIterations

Burn In迭代次數(shù),且取值必須小于totalIterations

正整數(shù)

100

totalIterations

迭代次數(shù)。

說明

z是主題,w是詞,d是文檔。

正整數(shù)

150

enableSparse

是否是kv輸入,選擇kv輸入或分詞結(jié)果。取值范圍如下:

  • true:kv輸入

  • false:非kv輸入

BOOL

true

coreNum

與參數(shù)memSizePerCore配對使用,默認系統(tǒng)會根據(jù)輸入數(shù)據(jù)量計算所起Instance的數(shù)量,即取值為-1。

正整數(shù)

-1

memSizePerCore

單個節(jié)點內(nèi)存大小,單位MB。范圍為[1024, 64*1024]。默認系統(tǒng)自動計算每個節(jié)點的內(nèi)存大小,即取值為-1。

正整數(shù)

-1

輸入和輸出設(shè)置

  • 輸入

    數(shù)據(jù)必須為稀疏矩陣的格式。可以通過三元組轉(zhuǎn)KV組件進行轉(zhuǎn)換。

    輸入格式如輸入格式所示。

    圖 1. 輸入格式輸入格式

    • 第一列:docid。

    • 第二列:單詞及詞頻的kv數(shù)據(jù)。

  • 輸出:

    輸出依次為:topic-word頻率貢獻表、單詞|主題輸出表、主題|單詞輸出表、文檔|主題輸出表、主題|文檔輸出表、主題輸出表。

    topic-word頻率貢獻表的輸出格式如輸出格式所示。

    圖 2. 輸出格式輸出格式