日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM-文章相似度去重(DLC)

LLM-文章相似度去重(DLC)組件主要用于通過SimHash算法計算文本間的相似度,實現(xiàn)文本去重。輸入的OSS數(shù)據(jù)文件(JSONL格式,示例)需符合:每一行是一個合法的JSON對象,文件由多行JSON對象組成,整個文件本身不是合法的JSON對象。

支持的計算資源

DLC

配置組件

在Designer工作流頁面添加LLM-文章相似度去重(DLC)組件,并在界面右側(cè)配置相關(guān)參數(shù):

參數(shù)類型

參數(shù)

是否必選

描述

默認值

字段設(shè)置

目標處理字段

要處理的字段名稱。

文本分隔符,默認空格

根據(jù)分隔符將文本拆分成單詞列表,默認空格。如果置空,則不做拆分,根據(jù)單個字符進行統(tǒng)計。分隔符需用英文雙引號""引起來。

" "

window_size

window_size用于定義構(gòu)成文檔特征的子字符串的長度。例如:如果你的文檔是"the cute alibaba mascot",并且window_size設(shè)置為2,那么子字符串將會是["the cute", "cute alibaba", "alibaba mascot"]。然后,對這些子字符串計算hash值,并用這些hash值生成文檔的SimHash值。window_size的選擇直接影響SimHash值的粒度。一個較小的window_size可能使文檔的局部特征更加明顯,但可能也會使hash更容易受到小的編輯操作影響。較大的window_size可以捕捉更長范圍的上下文,但可能會損失一些細節(jié)。

6

num_blocks

num_blocks決定SimHash值的分塊數(shù)。在執(zhí)行近似重復(fù)文檔的檢測時,SimHash值會被分成幾個塊。例如:如果SimHash值是一個64位的整數(shù),并且num_blocks是4,那么這個64位將分為4個獨立的16位塊。更多的塊意味著更細粒度的相似度比較。它可能減少誤報(認為不相關(guān)的文檔相似)但同時可能增加漏報(未能識別實際上相似的文檔)。通常num_blocks必須小于SimHash值的位數(shù)。

6

hamming_distance

hamming_distance是兩個SimHash值之間的漢明距離的閾值,用于決定是否應(yīng)該將兩個文檔視為 “幾乎重復(fù)”(即相似)。例如:假設(shè)有兩個SimHash值A(chǔ)和B,如果它們之間的漢明距離(即A與B中不同bit的數(shù)量)小于或等于hamming_distance,那么A和B將被認為是相似的。較小的hamming_distance值會導(dǎo)致只有高度相似的文檔被認為是重復(fù)的,可能導(dǎo)致較多的重復(fù)文檔未被識別。較大的hamming_distance值增加了誤報的可能性,但同時較好地識別了相似的文檔。典型的漢明距離值可以是3、4或5,視具體用途而定。

4

數(shù)據(jù)輸出OSS目錄

處理后數(shù)據(jù)的OSS存儲目錄。如果為空,使用工作空間默認路徑。

執(zhí)行調(diào)優(yōu)

多進程個數(shù)

設(shè)置進程數(shù)。

8

選擇資源組

公共資源組

選擇節(jié)點規(guī)格(CPU或GPU實例規(guī)格)、節(jié)點數(shù)量、專有網(wǎng)絡(luò)。

專有資源組

選擇CPU核數(shù)、內(nèi)存、共享內(nèi)存、GPU卡數(shù)、節(jié)點數(shù)量。

最大運行時長

組件最大運行時長,超過這個時間,作業(yè)會被kill。