該組件實現EasyRec離線預測(predict)功能。
前提條件
已完成模型訓練。
可視化配置參數
輸入樁
輸入樁(從左到右) | 建議上游組件 | 對應PAI命令參數 | 是否必選 |
輸入模型 |
| saved_model_dir | 是 |
輸入表 | input_table | 是 |
組件參數
頁簽 | 參數 | 是否必選 | 描述 | 對應PAI命令參數 | 默認值 |
參數設置 | 輸入選擇列 | 否 | 從輸入表選擇特征列給到預測模型,不能與排除列同時使用。 | selected_cols | 無 |
排除列 | 否 | 預測模型不需要使用的輸入列,不能和輸入選擇列同時使用。 | excluded_cols | 無 | |
輸出保留列 | 否 | 在預測結果表中原樣輸出的列。 | reserved_cols | 無 | |
預測詳情輸出列 | 否 | 選擇預測模型的輸出到MaxCompute表的映射,詳情請參見EasyRec離線預測。 | output_cols | 默認為probs double | |
miniBatch的大小 | 否 | minibatch的大小,表示一個批次中包含的最少樣本數量。 | batch_size | 1024 | |
指定算法版本 | 是 | 選中高級選項,支持配置該參數。 支持自定義EasyRec的執行版本。
| script | 無 | |
執行調優 | Worker數量 | 否 | Worker的數量。 | 會拼裝成cluster參數 | 1 |
Worker CPU用量 | 否 | Worker申請的CPU數量,取值1表示一個CPU核。 | 6 | ||
Worker Memory用量 | 否 | Worker申請的內存,單位為MB,取值100表示100 MB。 | 30000 | ||
Worker GPU卡數 | 否 | 在EasyRec訓練中,一般不需要使用GPU。 | 0 |
輸出樁
輸出樁(從左到右) | 數據類型 | 對應PAI命令參數 |
輸出表 | MaxCompute表 | output_table |
PAI命令及說明
PAI -project algo_public -name easy_rec_ext
-Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole"
-Dbatch_size="1024"
-Dbuckets="oss://rec_sln_demo/"
-Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 600, \"gpu\": 0, \"memory\": 30000}}"
-Dcmd="predict"
-Dinput_table="odps://pai_hangzhou/tables/pai_temp_flow_inpwi02on49ooub78p_node_dn3y3lvucm862jr71n_outputTable"
-Dlifecycle="28"
-DossHost="oss-cn-hangzhou-internal.aliyuncs.com"
-Doutput_cols="item_emb string"
-Doutput_table="odps://pai_hangzhou/tables/pai_temp_flow_da1nuzwmbdfyw5kajy_node_5jgko0vlrjiwawp6y8_outputTable"
-Dreserved_cols="item_id"
-Dsaved_model_dir="oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/20230425/export/final/item"
-Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz";
參數名稱 | 是否必選 | 描述 |
saved_model_dir | 是 | 導出的模型目錄。 |
input_table | 是 | 輸入表。 |
output_table | 否 | 輸出表,不需要提前創建,會自動創建。 |
reserved_cols | 否 | 需要復制到output_table的列,多列之間使用半角逗號(,)分隔。 |
output_cols | 否 | 指定輸出表里面的列名和類型,多列之間使用半角逗號(,)分隔。 |
batch_size | 否 | minibatch的大小。 |
arn | 是 | 指定授權資源,您可以登錄PAI控制臺,在開通和授權>全部云產品依賴頁面的Designer區域,單擊操作列下的查看授權信息,獲取arn。 |
buckets | 是 | 模型文件所在的Bucket和保存模型的Bucket目錄,如果有多個Bucket,使用半角逗號(,)分隔,例如: |
ossHost | 是 | OSS各地域Endpoint。如何獲取Endpoint,請參見訪問域名和數據中心。 |
script | 否 | 指定EasyRec Tar包所在的OSS Bucket路徑,如何配置EasyRec Tar包,請參見EasyRec版本更新。 |
使用示例
創建如下工作流。
區域
描述
①②③
如何配置組件參數,請參見模型訓練的使用示例。
④
模型預測的左側輸入樁接入到模型訓練組件的下游,右側輸入樁接入到讀數據表-2組件的下游,排除列選擇clk ,輸出保留列選擇user_id 、pid。
工作流運行結束后,右鍵單擊模型預測組件,在快捷菜單,單擊查看數據>輸出表。
輸出結果列含義說明,詳情請參見離線預測。
更完整的使用方式請參考推薦算法定制-向量召回節點13_rec_sln_demo_dssm_recall_item_embedding_v1和節點14_rec_sln_demo_dssm_recall_user_embedding_v1。