PLDA
主題模型用于在一系列文檔中發(fā)現(xiàn)抽象主題(topic)的一種統(tǒng)計模型,在PAI平臺,您可以通過給PLDA組件設(shè)置topic參數(shù)值,從而讓每篇文檔抽象出不同主題。
LDA(Latent Dirichlet allocation)是一種主題模型,它可以按照概率分布的形式給出文檔集中每篇文檔的主題。LDA也是一種無監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時您無需手工標注的訓(xùn)練集,僅需要在文檔集中指定主題的數(shù)量K即可(K即為PLDA參數(shù)topic)。
LDA首先由David M. Blei、Andrew Y. Ng和Michael I. Jordan于2003年提出,在文本挖掘領(lǐng)域應(yīng)用于文本主題識別、文本分類和文本相似度計算等方面。
組件配置
您可以使用以下任意一種方式,配置PLDA組件參數(shù)。
方式一:可視化方式
在Designer工作流頁面配置組件參數(shù)。
頁簽 | 參數(shù) | 參數(shù)描述 |
字段設(shè)置 | 選擇特征列 | 選擇參與訓(xùn)練的特征列。 |
參數(shù)設(shè)置 | 主題個數(shù) | 設(shè)置LDA的輸出的主題個數(shù)。 |
Alpha |
| |
beta |
| |
burn In 迭代次數(shù) | Burn In 迭代次數(shù),必須小于總迭代次數(shù),默認值為100。 | |
總迭代次數(shù) | 正整數(shù),非必選,默認值為150。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用,詳情請參見SQL腳本。
-project algo_public
-DinputTableName=lda_input
–DtopicNum=10
-topicWordTableName=lda_output;
參數(shù)名稱 | 是否必選 | 描述 | 類型 | 默認值 |
inputTableName | 是 | 輸入表的名稱。 | STRING | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓(xùn)練的分區(qū)。系統(tǒng)支持以下格式:
說明 指定多個分區(qū)時,分區(qū)之間使用英文逗號(,)分隔。 | STRING | 輸入表的所有分區(qū) |
selectedColNames | 否 | 輸入表中用于LDA的列名。 | STRING | 輸入表中所有的列名 |
topicNum | 是 | Topic的數(shù)量,取值范圍為[2, 500]。 | 正整數(shù) | 無 |
kvDelimiter | 否 | Key和Value間的分隔符。取值:
| STRING | 英文冒號(:) |
itemDelimiter | 否 | Key和Key間的分隔符。取值:
| STRING | 空格 |
alpha | 否 |
| FLOAT | 0.1 |
beta | 否 |
| FLOAT | 0.01 |
topicWordTableName | 是 | topic-word頻率貢獻表。 | STRING | 無 |
pwzTableName | 否 |
| STRING | 無,即不輸出 |
pzwTableName | 否 |
| STRING | 無,即不輸出 |
pdzTableName | 否 |
| STRING | 無,即不輸出 |
pzdTableName | 否 |
| STRING | 無,即不輸出 |
pzTableName | 否 |
| STRING | 無,即不輸出 |
burnInIterations | 否 | Burn In迭代次數(shù),且取值必須小于totalIterations。 | 正整數(shù) | 100 |
totalIterations | 否 | 迭代次數(shù)。 說明 z是主題,w是詞,d是文檔。 | 正整數(shù) | 150 |
enableSparse | 否 | 是否是kv輸入,選擇kv輸入或分詞結(jié)果。取值范圍如下:
| BOOL | true |
coreNum | 否 | 與參數(shù)memSizePerCore配對使用,默認系統(tǒng)會根據(jù)輸入數(shù)據(jù)量計算所起Instance的數(shù)量,即取值為-1。 | 正整數(shù) | -1 |
memSizePerCore | 否 | 單個節(jié)點內(nèi)存大小,單位MB。范圍為[1024, 64*1024]。默認系統(tǒng)自動計算每個節(jié)點的內(nèi)存大小,即取值為-1。 | 正整數(shù) | -1 |