文本摘要組件采用自動文摘算法,基于TextRank模型,從原文獻中提取關鍵句子來生成一段簡潔且連貫的短文,即文本摘要。該摘要能準確全面地捕捉并反映出原文的中心思想。本文為您介紹文本摘要組件的配置方法。
使用限制
支持的計算引擎為MaxCompute。
使用說明
您可以在文本摘要組件的上游接入句子拆分組件,將文本拆分成一句一行的形式。
組件配置
您可以使用以下任意一種方式,配置文本摘要組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 標識文章ID的列名 | 輸入標識文檔ID的列名。 |
句子列 | 可指定一列。 | |
參數設置 | 輸出前的關鍵句個數 | 默認是3。 |
句子相似度的計算方法 | 句子相似度計算方法:
| |
匹配字符串的權重 | 句子相似度的計算方法取值ssk時,該參數生效。默認為0.5。 | |
子串的長度 | 句子相似度的計算方法取值ssk/cosine時,該參數生效。默認為2。 | |
阻尼系數 | 默認為0.85。 | |
最大迭代次數 | 默認為100。 | |
收斂系數 | 默認為0.000001。 | |
執行調優 | 核心數 | 默認自動分配。 |
單個核心的內存 | 默認自動分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;
參數名稱 | 是否必選 | 描述 | 默認值 |
inputTableName | 是 | 輸入表名。 | 無 |
inputTablePartitions | 否 | 輸入表中指定參與計算的分區。 | 輸入表所有分區 |
outputTableName | 是 | 輸出表名。 | 無 |
docIdCol | 是 | 標識文章ID的列名。 | 無 |
sentenceCol | 是 | 句子列,僅可指定一列。 | 無 |
topN | 否 | 輸出前幾個關鍵句。 | 3 |
similarityType | 否 | 句子相似度計算方法:
| lcs_sim |
lambda | 否 | 匹配字符串的權重,ssk中可用。 | 0.5 |
k | 否 | 子串的長度,ssk和cosine中可用。 | 2 |
dampingFactor | 否 | 阻尼系數。 | 0.85 |
maxIter | 否 | 最大迭代次數。 | 100 |
epsilon | 否 | 收斂系數。 | 0.000001 |
lifecycle | 否 | 輸入出表的生命周期。 | 無 |
coreNum | 否 | 參與計算的核心數。 | 系統自動分配 |
memSizePerCore | 否 | 每個核心需要的內存。 | 系統自動分配 |
示例
準備輸入表test_input,表內容示例如下。
您可以使用MaxCompute客戶端創建表,并使用Tunnel命令上傳數據。關于MaxCompute客戶端的安裝及配置請參見使用本地客戶端(odpscmd)連接,關于Tunnel命令使用詳情請參見Tunnel命令。
doc_id
sentence
1000897
新冠肺炎疫情發生以來,濫食野生動物的突出問題。由此給公共衛生安全帶來的巨大隱患,引發社會廣泛關注。全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。執法部門在打擊涉野生動物違法犯罪活動的過程中發現,野味消費群體龐大、盜獵利潤驚人、鑒定難度大成本高等問題,成為盜獵野生動物黑色利益鏈條得以在地下運轉的重要原因。
其中:
doc_id:文章ID列。
sentence:句子列。
使用句子拆分組件,將sentence列的文本拆分成一句一行的形式,輸出表名test_output,表內容如下表所示。具體操作,請參見句子拆分。
doc_id
sentence
1000897
新冠肺炎疫情發生以來,濫食野生動物的突出問題。
1000897
由此給公共衛生安全帶來的巨大隱患,引發社會廣泛關注。
1000897
全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。
1000897
執法部門在打擊涉野生動物違法犯罪活動的過程中發現,野味消費群體龐大、盜獵利潤驚人、鑒定難度大成本高等問題,成為盜獵野生動物黑色利益鏈條得以在地下運轉的重要原因。
執行以下PAI命令,生成文本摘要。
您可以使用SQL腳本執行如下PAI命令,也可以使用ODPS SQL節點執行如下PAI命令。
PAI -name TextSummarization -project algo_public -DinputTableName="test_output" -DoutputTableName="test_output1" -DdocIdCol="doc_id" -DsentenceCol="sentence" -DtopN=2 -Dlifecycle=30;
輸出表為兩列,分別是doc_id和abstract。
doc_id
abstract
1000897
新冠肺炎疫情發生以來,濫食野生動物的突出問題。 全國多地公安、林業以及市場監管部門開展相關專項行動,對非法獵捕、販賣、食用野生動物進行全鏈條打擊,效果顯著。
相關文檔
使用句子拆分組件對數據進行預處理,將一段文本拆分成一句一行的形式。具體操作,請參見句子拆分。
關于Designer更詳細的內容介紹,請參見Designer概述。