本文為您介紹如何基于圖算法,實現金融風控。
背景信息
圖算法通常適用于關系網狀的業務場景。與常規結構化數據不同,圖算法將數據整理為首尾相連的關系圖譜,需要考慮邊和點。PAI提供了豐富的圖算法組件,包括K-Core、最大聯通子圖及標簽傳播聚類等。
本實驗以人物通聯關系圖(如下圖所示)為例,基于圖算法實現金融風控。兩人之間的連線表示兩人具有一定關系,可以是同事或親人等。已知Enoch為信用用戶,Evan為欺詐用戶,通過圖算法可以計算其它人的信用指數,獲得每個人為欺詐用戶的概率,從而指導相關機構進行金融風控。
數據集
本工作流數據集的具體字段如下。
字段名 | 含義 | 類型 | 描述 |
start_point | 邊的起始節點 | STRING | 人物。 |
end_point | 邊的結束節點 | STRING | 人物。 |
count | 關系緊密度 | DOUBLE | 數值越大,兩人的關系越緊密。 |
數據的示例如下。
基于圖算法實現金融風控
進入Designer頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導航欄選擇 ,進入Designer頁面。
構建工作流。
在Designer頁面,單擊預置模板頁簽。
在模板列表,單擊圖算法-金融風控實驗下的創建。
在新建工作流對話框,配置參數(可以全部使用默認參數)。
其中:工作流數據存儲配置為OSS Bucket路徑,用于存儲工作流運行中產出的臨時數據和模型。
單擊確定。
您需要等待大約十秒鐘,工作流可以創建成功。
在工作流列表,雙擊圖算法-金融風控實驗,進入工作流。
系統根據預置的模板,自動構建工作流,如下圖所示。
區域
描述
①
首先通過最大聯通子圖組件將數據中的群體分為兩部分,并賦予group_id。然后通過SQL腳本組件和JOIN組件去除圖中的無關聯人員。
最大聯通子圖組件可以查找具有通聯關系的最大集合,從而排除團隊中與風控無關的人,如下圖所示。
②
探查每個人的一度人脈及二度人脈等關系。單源最短路徑組件的輸出結果中,distance表示Enoch通過幾個人可以聯絡到目標人,如下圖所示。
③
首先通過讀數據表組件導入標簽數據(weight表示目標屬于欺詐用戶的概率,如下圖所示)。然后通過標簽傳播分類組件預測未標記節點的標簽信息。最后通過SQL腳本篩選結果,從而展示每個人的涉嫌欺詐概率。
標簽傳播分類算法為半監督的分類算法,其輸入包括人物通聯圖和標簽數據,通過已標記節點的標簽信息預測未標記節點的標簽信息。算法執行過程中,每個節點的標簽根據相似度傳播給相鄰節點。
運行工作流并查看輸出結果。
單擊畫布上方的。
工作流運行結束后,右鍵單擊區域③中的SQL腳本,在快捷菜單,單擊查看數據,即可查看每個人的欺詐概率。