線性回歸是數理統計中的回歸分析方法,可以確定兩種或兩種以上變量之間相互依賴的定量關系。Designer預置了線性回歸算法模板,便于您通過農業貸款的歷史發放情況,快速實現貸款發放預測。本文為您介紹Designer線性回歸算法預置模板的具體使用方法。
背景信息
農業貸款發放問題是一個典型的數據挖掘問題。貸款發放人通過歷史貸款數據(包括貸款人的年收入、種植作物種類及歷史借貸信息等)構建經驗模型,并預測受貸人的還款能力。
本工作流數據為虛構,僅供學習。
前提條件
數據集
本工作流的數據集包括如下字段。
字段名 | 類型 | 描述 |
id | STRING | 數據唯一標識符。 |
name | STRING | 用戶名。 |
region | STRING | 用戶所屬地區,從北到南排列。 |
farmsize | DOUBLE | 土地面積。 |
rainfall | DOUBLE | 降雨量。 |
landquality | DOUBLE | 土地質量,該參數取值越大越好。 |
farmincome | DOUBLE | 年收入。 |
maincrop | STRING | 種植作物的種類。 |
claimtype | STRING | 貸款類型。 |
claimvalue | DOUBLE | 貸款金額。 |
基于回歸算法預測農業貸款發放
進入Designer頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導航欄選擇 ,進入Designer頁面。
構建工作流。
在Designer頁面,單擊預置模板頁簽。
在工作流模板列表的農業貸款預測的回歸算法實現區域,單擊創建。
在新建工作流對話框,配置參數(可以全部使用默認參數)。
其中:工作流數據存儲配置為OSS Bucket路徑,用于存儲工作流運行中產出的臨時數據和模型。
單擊確定。
您需要等待大約十秒鐘,工作流可以創建成功。
在工作流列表,選擇農業貸款預測的回歸算法實現工作流,單擊進入工作流。
系統根據預置的模板,自動構建工作流,如下圖所示。
區域
描述
①
讀數據表讀入的數據為工作流數據集,包括:
貸款訓練集:共一百條歷史貸款數據,包括farmsize及rainfall等特征,用于訓練回歸模型。其中claimvalue表示貸款收回的金額。
貸款預測集:共七十一人,指今年申請貸款者。其中claimvalue表示申請的貸款金額。
本工作流通過貸款訓練集中的歷史數據,預測為貸款預測集中的哪些申請人發放貸款。
②
根據含義將字符串類型的數據映射為數字。以region字段為例,先將其中的north、middle及south按照從北到南的順序分別映射為0、1及2,再將其轉換為DOUBLE類型。
③
首先使用線性回歸組件對歷史數據進行訓練并生成回歸模型。然后在預測組件中利用回歸模型對預測數據集進行貸款發放預測。最后通過合并列組件將用戶ID、預測值及申請的貸款值合并,結果如下圖所示。其中prediction_score表示用戶的還貸能力(預期可以歸還的金額)。
④
使用回歸模型評估組件進行模型評估,評估指標詳情請參見評估指標。
⑤
通過過濾與映射組件篩選可以獲得貸款的用戶。對于每個申請貸款人,如果預測獲得該貸款人的還款能力大于其申請的貸款金額,則發放貸款。
表 1. 評估指標
字段名稱
描述
MAE
平均絕對誤差
MAPE
平均絕對百分誤差
MSE
均方誤差
R
多重相關系數
R2
判定系數
RMSE
均方根誤差
SAE
絕對誤差和
SSE
誤差平方和
SSR
回歸平方和
SST
總平方和
count
行數
predictionMean
預測結果的均值
yMean
原始因變量的均值
運行工作流并查看輸出結果。
單擊畫布上方的運行按鈕,運行工作流。
工作流運行結束后,右鍵單擊畫布中的過濾與映射,在快捷菜單,單擊 ,即可查看可以為其發放貸款的用戶。
相關文檔
關于算法組件更詳細的內容介紹,請參見: