日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM-敏感信息打碼(MaxCompute)

該組件主要用于大語言模型(LLM)的文本數(shù)據(jù)預處理工作,可以將敏感信息打碼,例如將郵箱地址字符替換成[EMAIL],手機/電話號碼替換成[TELEPHONE][MOBILEPHONE],身份證號碼替換成[IDNUM]

使用限制

僅支持MaxCompute計算引擎。

算法簡介

敏感信息包括以下匹配項:

  • 手機號碼:匹配以下正則表達式的字符串將被替換成[MOBILEPHONE]。

    • r'(?<!\d)(1(3[0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|8[0-9]|9[89])\d{8})(?!\d)'

    • r'(?<!\d)(1[\d]{2}-\d{4}-\d{4}\D|\D1\d{10}\D|\D1[\d]{2} \d{4} \d{4})(?!\d)'

    • r'(?<!\d)(1[3-9]\d{9})(?!\d)'

  • 座機號碼:匹配以下正則表達式的字符串將被替換成[TELEPHONE]。

    • r'(?<!\d)(\(?0\d{2,3}[-\s)]?\d{7,8})(?!\d)'

  • 郵箱:匹配以下正則表達式的字符串將被替換成[EMAIL]。

    • r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+'

  • 身份證:匹配以下正則表達式的字符串將被替換為[IDNUM]。

    • r'(?<!\d)([1-6]\d{5}[12]\d{3}(0[1-9]|1[12])(0[1-9]|1[0-9]|2[0-9]|3[01])\d{3}(\d|X|x))(?!\d)'

    • r'(?<!\d)([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])(?!\d)'

例如郵箱打碼:

  • 處理前:

    image

  • 處理后:

    image

可視化配置參數(shù)

您可以在Designer中,通過可視化的方式配置組件參數(shù)。

頁簽

參數(shù)

是否必選

描述

默認值

字段設置

選擇目標處理列

選擇要處理的列,支持選擇多個列。

設置輸出表生命周期

正整數(shù),單位為天。默認28天,28天后該組件產(chǎn)生的臨時表被回收。

28

執(zhí)行調優(yōu)

每個實例的cpu數(shù)目

設定map task每個instance的CPU數(shù)目,取值范圍為[50,800]。

100

每個實例的memory大小,單位M

設定map task每個instance的memory大小,單位為MB,取值范圍為[256,12288]。

1024

每個實例處理的數(shù)據(jù)大小,單位M

設定map task每個instance的最大處理數(shù)據(jù)量,用戶可以通過控制該變量,實現(xiàn)對map端輸入的控制。單位為MB,取值范圍為[1,Integer.MAX_VALUE]。

256

相關文檔

關于Designer組件更詳細的內(nèi)容介紹,請參見Designer概述。