本文以人口普查數據為例,根據人物年齡、工作類型及教育程度等屬性,快速構建學歷對收入影響的統計模型。
數據集
本實驗數據為UCI開源數據集Adult,詳情請參見Adult Data Set。該數據集為某地域的人口普查結果,共32561條數據,具體的字段如下。
字段名 | 含義 | 類型 |
age | 年齡 | DOUBLE |
workclass | 工作類型 | STRING |
fnlwgt | 序號 | STRING |
education | 教育程度 | STRING |
education_num | 受教育時間 | DOUBLE |
maritial_status | 婚姻狀況 | STRING |
occupation | 職業 | STRING |
relationship | 關系 | STRING |
capital_gain | 資本收益 | STRING |
capital_loss | 資本損失 | STRING |
hours_per_week | 每周工作小時數 | DOUBLE |
native_country | 原籍 | STRING |
income | 收入 | STRING |
統計學歷對收入的影響
進入Designer頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應的工作空間。
在工作空間頁面的左側導航欄選擇 ,進入Designer頁面。
- 在可視化建模(Designer)頁面右上方,單擊前往舊版可視化建模(Studio)。
構建實驗。
在原PAI-Studio控制臺的左側導航欄,單擊首頁。
在模板列表,單擊人口普查統計案例下的從模板創建。
在新建實驗對話框,配置參數(可以全部使用默認參數)。
參數
描述
名稱
輸入人口普查統計案例。
項目
不支持修改。
描述
輸入結合人口普查數據搭建實驗,統計學歷和收入的關系。
位置
選擇我的實驗。
單擊確定。
可選:等待大約十秒鐘,在原PAI-Studio控制臺的左側導航欄,單擊實驗。
可選:在我的實驗下,單擊人口普查統計案例_XX。
其中我的實驗為已配置的實驗位置,人口普查統計案例_XX為已配置的實驗名稱(_XX為系統自動添加的實驗序號)。
系統根據預置的模板,自動構建實驗,如下圖所示。
區域
描述
①
使用讀數據表組件(數據源-人口統計)讀取MaxCompute中的數據集。
②
通過全表統計和數值分布(數據視圖和直方圖組件)統計結果,可以判斷數據是否符合泊松分布或高斯分布及數據為連續或離散數據。原PAI-Studio為組件提供了可視化顯示結果的功能,實驗運行完成后,您可以右鍵單擊畫布中的直方圖(多字段)-1,在快捷菜單,單擊查看分析報告,查看輸入數據的分布情況,如下圖所示。
③
統計學歷對收入的影響:
數據預處理
通過SQL腳本組件,將STRING類型的income字段轉換為二值型的0(表示年收入小于5萬元)和1(表示年收入大于5萬元)。
過濾與映射
通過過濾與映射組件將數據按照學歷分為博士、碩士及學士。過濾與映射組件支持SQL語句,您可以結合實際需要配置過濾條件。例如,單擊畫布中的過濾-博士,在右側字段設置面板,配置過濾條件為
education='Doctorate'
,即可過濾學歷為博士的人員。統計結果
通過百分位組件可以獲得每個分類對應的收入比例。
運行實驗并查看輸出結果。
單擊畫布上方的運行。
實驗運行結束后,右鍵單擊畫布中的百分位-1,在快捷菜單,單擊查看分析報告。
在百分位對話框,單擊右上方的圖標,即可查看博士收入分布的折線圖。
如上圖所示,博士年收入小于5萬(折線圖中取值為0的點)的比例約為25%。
說明通過拖動折線圖下方的滑塊,可以查看博士的整體收入分布。
參見以上步驟,分別查看碩士和學士的收入比例,匯總的結果如下。
學歷
年收入大于5萬的比例
博士
75%
碩士
56%
學士
42%