日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

特征工程

通過推薦算法定制生成的特征工程,對原始數據集(包括用戶表、物料表和行為表等)進行處理,并生成新的特征表,以供后續的召回和排序使用。

前提條件

數據集

為了演示以下特征工程,本數據使用腳本模擬構造生成用戶(user)表、物料(item)表和行為(behavior)表,并非真實數據集。

用戶表:pai_online_project.rec_sln_demo_user_table

字段名

類型

描述

user_id

bigint

用戶唯一ID

gender

string

性別

age

bigint

年齡

city

string

城市

item_cnt

bigint

創作內容數

follow_cnt

bigint

關注數

follower_cnt

bigint

粉絲數

register_time

bigint

注冊時間

tags

string

用戶標簽

ds

string

表分區列名

物料表:pai_online_project.rec_sln_demo_item_table

字段名

類型

描述

item_id

bigint

物料ID

duration

double

視頻時長

title

string

標題

category

string

一級標簽

author

bigint

作者

click_count

bigint

累計點擊數

praise_count

bigint

累計點贊數

pub_time

bigint

發布時間

ds

string

表分區列名

行為表:pai_online_project.rec_sln_demo_behavior_table

字段名

類型

描述

request_id

bigint

埋點ID/請求ID

user_id

bigint

用戶唯一ID

exp_id

string

實驗ID

page

string

頁面

net_type

string

網絡類型

event_time

bigint

行為事件發生的時間

item_id

bigint

物品ID

event

string

行為事件類型

playtime

double

播放時長/閱讀時長

ds

string

表分區列名

特征工程

步驟一:進入Designer頁面

  1. 登錄PAI控制臺。

  2. 在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

  3. 在工作空間頁面的左側導航欄選擇模型開發與訓練 > 可視化建模(Designer),進入Designer頁面。

步驟二:構建工作流

  1. Designer頁面,單擊預置模板頁簽。

  2. 在模板列表的推薦解決方案-特征工程區域,單擊創建。

  3. 新建工作流對話框,配置參數(可以全部使用默認參數)。

    其中: 工作流數據存儲配置為OSS Bucket路徑,用于存儲工作流運行中產出的臨時數據和模型。

  4. 單擊確定。

    您需要等待大約十秒鐘,工作流可以創建成功。

  5. 在工作流列表,雙擊推薦解決方案-特征工程工作流,進入工作流。

  6. 系統根據預置的模板,自動構建工作流,如下圖所示。image.png

    節點

    描述

    1

    物料表預處理:

    • 將Tag特征分隔符替換為chr(29)供后續特征生成步驟(FG)使用。

    • 產出是否是新上架物料的特征。

    2

    行為表預處理:產出day_h、week_day等行為時間的衍生特征。

    3

    用戶表預處理:

    • 產出是否是新注冊用戶的特征。

    • 將Tag特征分隔符替換為chr(29)供后續特征生成步驟(FG)使用。

    4

    關聯行為表、用戶表和物料表,形成帶統計屬性的行為日志寬表。

    5

    生成物料特征表,包含一段時間的物料統計特征:

    • item__{event}_cnt_{N}d:N天內該物料上發生某行為的數目,表征物料熱門程度。

    • item__{event}_{itemid}_dcnt_{N}d:N天內該物料上發生某行為的唯一用戶數,表征物料熱門程度。

    • item__{min|max|avg|sum}_{field}_{N}d:N天內發生在該物料的正向行為中,用戶某數值屬性上的統計分布,表征物料被哪種數值屬性的用戶偏好。

    • item__kv_{cate}_{event}_{N}d:N天內發生在該物料上的某行為中,用戶某類目屬性的統計,表征物料被哪種類目屬性的用戶偏好。

    6

    生成用戶特征表,包含一段時間的用戶統計特征。

步驟三:添加函數

  1. 新建業務流程。具體操作,請參見創建業務流程。

  2. 右鍵單擊新建的業務流程下的MaxCompute,選擇新建資源 > Python,新建一個名稱為count_cates_kvs.py的python腳本資源。具體操作,請參見創建并使用MaxCompute資源

  3. 右鍵單擊新建的業務流程下的MaxCompute,選擇新建函數。新建一個名稱為COUNT_CATES_KVS的MaxCompute函數。其中類名配置為count_cates_kvs.CountCatesKVS,資源列表配置為count_cates_kvs.py。具體操作,請參見創建并使用自定義函數

步驟四:運行工作流并查看輸出結果

說明

本數據集默認使用的是45天的數據,將會運行較長時間。如果希望更快地完成運行,需要進行如下操作:

  • 更新執行時間窗口參數,使用更少時間內的數據。

    • 分別單擊以下節點,將右側參數設置頁簽的執行時間窗口參數由默認的(-45,0]改為(-9,0]

      • 1_rec_sln_demo_item_table_preprocess_v2

      • 2_rec_sln_demo_behavior_table_preprocess_ v2

      • 3_rec_sln_demo_user_table_preprocess_v2

      • 4_rec_sln_demo_behavior_table_preprocess_wide_v2

    • 分別單擊以下節點,將右側參數設置頁簽的執行時間窗口參數由默認的(-31,0]改為(-8,0]

      • 5_rec_sln_demo_item_table_preprocess_all_feature_v2

      • 6_rec_sln_demo_user_table_preprocess_all_feature_v2

  • 修改SQL腳本代碼,選取一部分用戶。

    • 單擊節點2_rec_sln_demo_behavior_table_preprocess_ v2,將右側參數設置頁簽的SQL腳本參數配置代碼的第32行由WHERE ds = '${pai.system.cycledate}' 改為WHERE ds = '${pai.system.cycledate}' and user_id %10=1。

    • 單擊節點3_rec_sln_demo_user_table_preprocess_v2,將右側參數設置頁簽的SQL腳本參數配置代碼的第38行由WHERE ds = '${pai.system.cycledate}' 改為WHERE ds = '${pai.system.cycledate}' and user_id %10=1。

  1. 單擊Designer工作流畫布上方的運行按鈕image.png

  2. 工作流運行結束后,查看以下MaxCompute表是否有30天的數據:

    • 物料特征表:rec_sln_demo_item_table_preprocess_all_feature_v2

    • 行為日志寬表:rec_sln_demo_behavior_table_preprocess_v2

    • 用戶特征表:rec_sln_demo_user_table_preprocess_all_feature_v2

    您可以在SQL查詢頁面,查詢上述表數據。具體操作,請參見使用DataWorks連接

    說明

    表所屬項目禁止了分區表全表掃描,需要指定分區條件。如果查詢表數據的SQL需要進行全表掃描,您可以在SQL語句前加set odps.sql.allow.fullscan=true; 語句并一起提交運行。全表掃描會導致輸入量增加從而使成本增加。