DataWorks數據集成實時ETL支持數據脫敏組件使用,可以在來源與去向組件間新增數據脫敏組件,對來源的數據指定字段進行脫敏寫入去向數據源當中。
前提條件
已完成數據集成的基本配置與網絡資源配置。
數據集成的同步類型為單表實時。
步驟一:配置數據集成任務
新建數據源,詳情請參見:創建并管理數據源。
新建數據集成任務,詳情請參見:數據集成側同步任務。
說明當數據集成側同步任務的同步類型為單表實時,可在數據來源組件與數據去向組件之間新增數據處理組件。詳情可參見支持的數據源及同步方案。
步驟二:添加數據脫敏組件
在實時ETL任務編輯頁DAG畫布中,單擊來源與去向組件之間的按鈕,新增選擇數據脫敏組件。
配置脫敏規則。
新建脫敏規則,創建好數據脫敏組件后,單擊組件,在數據脫敏進行脫敏規則的配置,需要新建脫敏規則:單擊新建脫敏規則,進入脫敏規則的配置面板,進行脫敏規則的配置。詳情說明請參考:
敏感數據類型,可選擇為選擇已有或選擇新增類型,以下為脫敏方式的說明。
哈希
哈希可將原始數據加密成固定長度的數據,HASH脫敏方式需要選擇安全域。而安全域的脫敏規則不一致,即使相同的待脫敏數據在不同的安全域脫敏后的結果也不一致。
舉例:原始數據為
a123
,安全域設置為0
時,脫敏成b124
,安全域設置為1
時,脫敏成c234
。原始數據相同時,如果安全域相同則脫敏后的數據也是相同的。假名
假名脫敏會將一個值替換成一個具有相同特征的脫敏信息。脫敏后數據和脫敏前數據的格式保持一致。
當敏感數據類型選中選擇已有時:用戶需要配置安全域。
說明安全域:可選范圍
0~9
,不同安全域的脫敏策略規則不一致,即相同的待脫敏數據在不同的安全域脫敏后的結果信息不一致。舉例:原始數據為
a123
,安全域設置為0
時,脫敏成b124
,安全域設置為1
時,脫敏成c234
。原始數據相同時,如果安全域相同則脫敏后的數據也是相同的。
當敏感數據類型選中新增類型時:用戶需要配置替換字符集。
說明替換字符集:遇到字符集中的字符,即會被替換為其他相同類型的字符。
使用限制:不支持中文,若需要脫敏的數據不符合字符集范圍則不脫敏。
舉例:敏感數據脫敏前是
0~3
的數字和a~d
的字母組成,那么脫敏后也會脫敏成在這個范圍內的數字和字母。
掩蓋
掩蓋脫敏是對部分信息進行掩蓋,將對應位置上的字符用“*”替換,達到脫敏的效果。可選擇以下兩種方式進行掩蓋脫敏:
推薦方式。
只展示前一后一。
只展示前三后二。
只展示前三后四。
自定義:提供了更靈活的配置,可以在前中后三段設置是否脫敏,以及需要脫敏的字符長度,最多可添加10個分段,至少要有1個分段包含剩余位數。
配置處說明:
圖標
描述
①
可選擇位數、剩余位數
②
輸入范圍為[1,100]
③
可選擇脫敏、不脫敏。
舉例:
配置內容
圖示
脫敏前三位,剩余位數不脫敏。
脫敏后三位,剩余位數不脫敏。
前三位與后三位保留,中間所有位數脫敏。
驗證脫敏規則:在樣本數據內輸入脫敏前的數據,單擊脫敏驗證,在脫敏效果中返回脫敏后的數據進行展示。
配置完成后,單擊確定,完成數據脫敏規則的創建。
添加條件:單擊添加條件可新增一行配置數據字段的脫敏規則。
字段:選擇需要脫敏的來源數據字段。
脫敏規則:選擇已創建的脫敏規則。
輸出字段:來源數據脫敏后的輸出字段名,與輸入字段名一致,但經過脫敏規則處理過的字段會自動轉為
STRING
類型輸出。
后續操作
完成來源信息、脫敏規則以及去向信息的配置后,可單擊右上角的模擬運行,對數據集成任務進行模擬運行,以便查看輸出數據結果,是否符合您的需求。