Doc2Vec算法將文檔ID視為一個詞來進行訓練,其中句向量表示與該文檔ID相對應的向量,詞向量是在文檔ID充當上下文時訓練得到的向量。您可以通過Doc2Vec算法組件將文章映射為向量,輸入為詞匯表,輸出為文檔向量表、詞向量表或詞匯表。本文為您介紹Doc2Vec算法組件的配置方法。
使用限制
支持的計算引擎為MaxCompute。
組件配置
您可以使用以下任意一種方式,配置Doc2Vec組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 文檔ID列名 | 用來進行訓練的文檔列名。 |
文檔內容 | 用來進行訓練的詞匯,以空格分隔。 | |
參數設置 | 單詞的特征維度 | 單詞的特征維度數量。取值范圍為0~1000,默認值為100。 |
語言模型 | 訓練使用的語言模型。取值范圍為
| |
單詞窗口大小 | 單詞的窗口大小。取值范圍為正整數,默認值為5。 | |
截斷的最小詞頻 | 取值范圍為正整數,默認值為5。 | |
Hierarchical Softmax | 是否采用HIERARCHICAL SOFTMAX。默認采用。 | |
Negative Sampling | 負采樣的窗口大小。取值范圍為正整數,默認值為5,0表示不可用。 | |
向下采樣閾值 | 向下采樣的閾值。取值范圍為1e-3~1e-5,默認值為1e-3,0表示不可用。 | |
開始學習速率 | 取值大于0,默認值為0.025。 | |
訓練的迭代次數 | 取值大于等于1,默認值為1。 | |
Window是否隨機 | 指定單詞窗口的展示方式。取值范圍為大小在1~5間隨機和不隨機,其值由window參數指定,默認值為不隨機,其值由window參數指定。 | |
執行調優 | 計算的核心數 | 默認為系統自動分配。 |
每個核心的內存(MB) | 默認為系統自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name pai_doc2vec
-project algo_public
-DinputTableName="d2v_input"
-DdocIdColName="docid"
-DdocColName="text_seg"
-DoutputWordTableName="d2v_word_output"
-DoutputDocTableName="d2v_doc_output";
參數名稱 | 是否必選 | 描述 | 默認值 |
inputTableName | 是 | 輸入詞匯表的名稱。 | 無 |
inputTablePartitions | 否 | 輸入詞匯表中參與分詞的分區名稱。格式為 | 無 |
docIdColName | 是 | 用來進行訓練的文檔列名。 | 無 |
docColName | 是 | 用來進行訓練的詞匯,以空格分隔。 | 無 |
layerSize | 否 | 單詞的特征維度數量。取值范圍為0~1000。 | 100 |
cbow | 否 | 訓練使用的語言模型。取值范圍為0(skip-gram模型)和1(cbow模型)。 | 0 |
window | 否 | 單詞的窗口大小。取值范圍為正整數。 | 5 |
minCount | 否 | 截斷的最小詞頻。取值范圍為正整數。 | 5 |
hs | 否 | 是否采用HIERARCHICAL SOFTMAX。取值范圍為0(不采用)和1(采用)。 | 1 |
negative | 否 | 負采樣的窗口大小。取值范圍為正整數,0表示不可用。 | 5 |
sample | 否 | 向下采樣的閾值。取值范圍為1e-3~1e-5,默認值為1e-3,0表示不可用。 | 1e-3 |
alpha | 否 | 取值大于0。 | 0.025 |
iterTrain | 否 | 取值大于等于1。 | 1 |
randomWindow | 否 | 指定單詞窗口的展示方式。取值范圍為0(不隨機,其值由window參數指定)和1(大小在1~5間隨機)。 | 1 |
outVocabularyTableName | 否 | 輸出詞匯表名稱。 | 無 |
outputWordTableName | 是 | 輸出詞向量表名稱。 | 無 |
outputDocTableName | 是 | 輸出文檔向量表名稱。 | 無 |
lifecycle | 否 | 輸出表的生命周期。取值范圍為正整數。 | 無 |
coreNum | 否 | 核心數,需要與memSizePerCore參數同時設置才生效。取值范圍為正整數。 | 系統自動分配 |
memSizePerCore | 否 | 內存數,需要與coreNum參數同時設置才生效。取值范圍為正整數。 | 系統自動分配 |
相關文檔
關于Designer更詳細的內容介紹,請參見Designer概述。