日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

本文為您介紹Designer提供的關(guān)鍵詞抽取算法組件。

關(guān)鍵詞抽取是自然語言處理中的重要技術(shù)之一,具體是指從文本中將與這篇文章意義相關(guān)性較強(qiáng)的一些詞抽取出來。該算法基于TextRank,根據(jù)PageRank算法思想,利用局部詞匯之間關(guān)系(共現(xiàn)窗口)構(gòu)建網(wǎng)絡(luò),并計算單詞的重要性,最終選取權(quán)重大的作為關(guān)鍵詞。

常用流程如下:

  1. 原始語料

  2. 分詞

  3. 使用詞過濾

  4. 關(guān)鍵詞抽取

組件配置

您可以使用以下任意一種方式,配置關(guān)鍵詞抽取組件參數(shù)。

方式一:可視化方式

Designer工作流頁面配置組件參數(shù)。

頁簽

參數(shù)

描述

字段設(shè)置

標(biāo)識文章id的列名

輸入標(biāo)識文章ID的列名。

標(biāo)識文章內(nèi)容分完詞結(jié)果

輸入標(biāo)識文章內(nèi)容分完詞結(jié)果名稱。

參數(shù)設(shè)置

輸出前多少個關(guān)鍵詞

整數(shù),默認(rèn)值為5。

窗口大小

整數(shù),默認(rèn)值為2。

阻尼系數(shù)

默認(rèn)值為0.85。

最大迭代數(shù)

默認(rèn)值為100。

收斂系數(shù)

默認(rèn)值為0.000001。

執(zhí)行調(diào)優(yōu)

核心數(shù),默認(rèn)自動分配

默認(rèn)自動選擇。

每個核心的內(nèi)存,默認(rèn)自動分配

默認(rèn)自動選擇。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請參見SQL腳本

PAI -name KeywordsExtraction      
    -DinputTableName=maple_test_keywords_basic_input    
    -DdocIdCol=docid -DdocContent=word    
    -DoutputTableName=maple_test_keywords_basic_output    
    -DtopN=19;

參數(shù)名稱

是否必選

描述

默認(rèn)值

inputTableName

輸入表。

inputTablePartitions

輸入表中指定哪些分區(qū)參與訓(xùn)練,格式為“Partition_name=value”。如果是多級格式為“name1=value1/name2=value2”。如果指定多個分區(qū),中間用半角逗號(,)分隔。

選擇所有分區(qū)

outputTableName

輸出表名。

docIdCol

標(biāo)識文章ID的列名,僅可指定一列。

docContent

Word列,僅可指定一列。

topN

輸出前多少個關(guān)鍵詞,當(dāng)關(guān)鍵詞個數(shù)小于全部詞個數(shù)時,全部輸出。

5

windowSize

TextRank算法的窗口大小。

2

dumpingFactor

TextRank算法的阻尼系數(shù)。

0.85

maxIter

TextRank算法的最大迭代次數(shù)。

100

epsilon

TextRank算法的收斂殘差閾值。

0.000001

lifecycle

指定輸出表的生命周期。

coreNum

節(jié)點個數(shù)。

自動計算

memSizePerCore

單個節(jié)點內(nèi)存大小,單位為MB。

自動計算

示例

  1. 數(shù)據(jù)生成

    輸入表需采用空格分詞,并過濾掉停用詞(如“的”、“地”、“得”、“了”、“個”)和所有標(biāo)點符號。

    docid:string

    word:string

    doc0

    翼身融合 飛機(jī) 是 未來 航空 領(lǐng)域 發(fā)展 一個 新 方向 諸多 研究 機(jī)構(gòu) 已經(jīng) 開展 對翼身融合 飛機(jī) 研究 而 其 全自動 外形 優(yōu)化 算法 已 成為 新 研究 熱點 現(xiàn)有 成果 基礎(chǔ) 之上 分析 比較 常用 建模 求解 平臺 使用 方式 及 特點 設(shè)計 編寫 翼身融合 飛機(jī) 外形 優(yōu)化 幾何 建模 網(wǎng)格 劃分 流場 求解 外形 優(yōu)化 模塊 比 較 不同 算法 間 優(yōu)劣 實現(xiàn) 翼身融合 飛機(jī) 概念設(shè)計 中 外形 優(yōu)化 幾何 建模 及 網(wǎng)格 生成 模塊 實現(xiàn) 基于 超限 插值 網(wǎng)格 生成 算法 基于 樣條 曲線 建模 方法 流場 求解 模塊 包括 有限 差分 求解器 有限元 求解器和面元法 求解器 其中 有限 差分 求解器 主要 包括 基于 有限 差分法 勢流 數(shù)學(xué) 建模 基于 笛卡爾 網(wǎng)格 變 步長 差分 格式 推導(dǎo) 笛卡爾 網(wǎng)格 生成 索引 算法 基于 笛卡爾 網(wǎng)格 諾 依曼 邊界條件 表達(dá) 形式 推導(dǎo) 實現(xiàn) 基于 有限 差分 求解器 二維 翼型 氣動 參數(shù) 計算 算例 有限元 求解器 主要 包括 基于 變分 原理 勢流 有限元 理論 建模 二維 有限元 庫塔 條件 表達(dá)式 推導(dǎo) 基于 最小 二乘 速度 求解 算法 設(shè)計 基于 Gmsh 二維 帶尾跡 翼型 空間 網(wǎng)格 生成器 開發(fā) 實現(xiàn) 基于 有限元 求解器 二維 翼型 氣動 參數(shù) 計算 算例 面元法 求解器 主要 包括 基于 面元法 勢流 理論 建模 自動 尾跡 生成 算法 設(shè)計 基于 面元法 三維 翼身融合 體 流場 求解器 開發(fā) 基于 布拉 修斯 平板 解 阻力 估算 算法 設(shè)計 求解器 Fortran 語言 上 移 植 Python 和 Fortran 代碼 混編 基于 OpenMP 和 CUDA 并行 加速 算法 設(shè)計 與 開發(fā) 實現(xiàn) 基于 面元法 求解器 三維 翼身融合 體 氣動 參數(shù) 計算 算例 外形 優(yōu)化 模塊 實 現(xiàn)了 基于 自由 形狀 變形 網(wǎng)格 變形 算法 遺傳算法 差分 進(jìn)化 算法 飛機(jī) 表面積 計算 算法 基于 矩 積分 飛 機(jī) 體積 計算 算法 開發(fā) 基于 VTK 數(shù)據(jù) 可視化 格式 工具

  2. PAI命令

    PAI -name KeywordsExtraction      
        -DinputTableName=maple_test_keywords_basic_input    
        -DdocIdCol=docid -DdocContent=word    
        -DoutputTableName=maple_test_keywords_basic_output    
        -DtopN=19;
  3. 輸出說明

    docid

    keywords

    weight

    doc0

    基于

    0.041306752223538405

    doc0

    算法

    0.03089845626854151

    doc0

    建模

    0.021782865850562882

    doc0

    網(wǎng)格

    0.020669749212693957

    doc0

    求解器

    0.020245609506360847

    doc0

    飛機(jī)

    0.019850761705313365

    doc0

    研究

    0.014193732541852615

    doc0

    有限元

    0.013831122054200538

    doc0

    求解

    0.012924593244133104

    doc0

    模塊

    0.01280216562287212

    doc0

    推導(dǎo)

    0.011907588923852495

    doc0

    外形

    0.011505456605632607

    doc0

    差分

    0.011477831662367547

    doc0

    勢流

    0.010969269350293957

    doc0

    設(shè)計

    0.010830986516637251

    doc0

    實現(xiàn)

    0.010747536556701583

    doc0

    二維

    0.010695570768457084

    doc0

    開發(fā)

    0.010527342662670088

    doc0

    0.010096978306668461