欧美日韩一区二区三区视频在线 ,亚洲最大免费无码电影,国产亚洲精品无码专区高清

主題模型用于在一系列文檔中發(fā)現(xiàn)抽象主題（topic）的一種統(tǒng)計模型，在PAI平臺，您可以通過給PLDA組件設(shè)置topic參數(shù)值，從而讓每篇文檔抽象出不同主題。

LDA（Latent Dirichlet allocation）是一種主題模型，它可以按照概率分布的形式給出文檔集中每篇文檔的主題。LDA也是一種無監(jiān)督學(xué)習(xí)算法，在訓(xùn)練時您無需手工標注的訓(xùn)練集，僅需要在文檔集中指定主題的數(shù)量K即可（K即為PLDA參數(shù)topic）。

LDA首先由David M. Blei、Andrew Y. Ng和Michael I. Jordan于2003年提出，在文本挖掘領(lǐng)域應(yīng)用于文本主題識別、文本分類和文本相似度計算等方面。

組件配置

您可以使用以下任意一種方式，配置PLDA組件參數(shù)。

方式一：可視化方式

在Designer工作流頁面配置組件參數(shù)。

表 1. 參數(shù)說明
頁簽	參數(shù)	參數(shù)描述
字段設(shè)置	選擇特征列	選擇參與訓(xùn)練的特征列。
參數(shù)設(shè)置	主題個數(shù)	設(shè)置LDA的輸出的主題個數(shù)。
	Alpha	`P(z/d)` 的先驗狄利克雷分布的參數(shù)。
	beta	`P(w/z)` 的先驗狄利克雷分布的參數(shù)。
	burn In 迭代次數(shù)	Burn In 迭代次數(shù)，必須小于總迭代次數(shù)，默認值為100。
	總迭代次數(shù)	正整數(shù)，非必選，默認值為150。

方式二：PAI命令方式

使用PAI命令方式，配置該組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用，詳情請參見SQL腳本。


    -project algo_public
    -DinputTableName=lda_input
    –DtopicNum=10
    -topicWordTableName=lda_output;

參數(shù)名稱	是否必選	描述	類型	默認值
inputTableName	是	輸入表的名稱。	STRING	無
inputTablePartitions	否	輸入表中，參與訓(xùn)練的分區(qū)。系統(tǒng)支持以下格式： Partition_name=value name1=value1/name2=value2：多級分區(qū) 說明指定多個分區(qū)時，分區(qū)之間使用英文逗號（,）分隔。	STRING	輸入表的所有分區(qū)
selectedColNames	否	輸入表中用于LDA的列名。	STRING	輸入表中所有的列名
topicNum	是	Topic的數(shù)量，取值范圍為[2, 500]。	正整數(shù)	無
kvDelimiter	否	Key和Value間的分隔符。取值：空格英文逗號（,）英文冒號（:）	STRING	英文冒號（:）
itemDelimiter	否	Key和Key間的分隔符。取值：空格英文逗號（,）英文冒號（:）	STRING	空格
alpha	否	`P(z/d)`的先驗狄利克雷分布的參數(shù)。取值為(0, ∞)。	FLOAT	0.1
beta	否	`P(w/z)`的先驗狄利克雷分布的參數(shù)。取值為(0, ∞)。	FLOAT	0.01
topicWordTableName	是	topic-word頻率貢獻表。	STRING	無
pwzTableName	否	`P(w/z)`輸出表。	STRING	無，即不輸出`P(w/z)`表
pzwTableName	否	`P(z/w)`輸出表。	STRING	無，即不輸出`P(z/w)`表
pdzTableName	否	`P(d/z)`輸出表。	STRING	無，即不輸出`P(d/z)`表
pzdTableName	否	`P(z/d)`輸出表。	STRING	無，即不輸出`P(z/d)`表
pzTableName	否	`P(z)`輸出表。	STRING	無，即不輸出`P(z)`表
burnInIterations	否	Burn In迭代次數(shù)，且取值必須小于totalIterations。	正整數(shù)	100
totalIterations	否	迭代次數(shù)。說明 z是主題，w是詞，d是文檔。	正整數(shù)	150
enableSparse	否	是否是kv輸入，選擇kv輸入或分詞結(jié)果。取值范圍如下： true：kv輸入 false：非kv輸入	BOOL	true
coreNum	否	與參數(shù)memSizePerCore配對使用，默認系統(tǒng)會根據(jù)輸入數(shù)據(jù)量計算所起Instance的數(shù)量，即取值為-1。	正整數(shù)	-1
memSizePerCore	否	單個節(jié)點內(nèi)存大小，單位MB。范圍為[1024, 64*1024]。默認系統(tǒng)自動計算每個節(jié)點的內(nèi)存大小，即取值為-1。	正整數(shù)	-1

輸入和輸出設(shè)置

輸入
數(shù)據(jù)必須為稀疏矩陣的格式。可以通過三元組轉(zhuǎn)KV組件進行轉(zhuǎn)換。
輸入格式如輸入格式所示。
圖 1. 輸入格式
- 第一列：docid。
- 第二列：單詞及詞頻的kv數(shù)據(jù)。
輸出：
輸出依次為：topic-word頻率貢獻表、單詞|主題輸出表、主題|單詞輸出表、文檔|主題輸出表、主題|文檔輸出表、主題輸出表。
topic-word頻率貢獻表的輸出格式如輸出格式所示。
圖 2. 輸出格式

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

組件配置

方式一：可視化方式

方式二：PAI命令方式

輸入和輸出設(shè)置