該組件的作用是使用EasyRec里的add_feature_info_to_config.py腳本,給推薦全鏈路深度定制開發平臺PAIREC生成的臨時文件template.config,添加特征信息。本文為您介紹該組件的配置方法。
前提條件
已開通OSS并完成授權,詳情請參見 開通OSS服務和 云產品依賴與授權:Designer。
組件配置
您可以使用以下任意一種方式,配置更新EasyRec配置文件組件參數。
方式一:可視化配置參數
輸入樁
輸入樁(從左到右)
限制數據類型/上游組件
對應PAI命令參數
是否必選
config表輸入
說明該表是一個統計表,統計了特征出現的次數、數值特征的分桶值。
config_table
是
組件參數
頁簽
參數
是否必選
描述
對應PAI命令參數
默認值
參數設置
推薦模板生成的模板配置文件
是
推薦模板生成的模板配置文件所在的OSS路徑。
template_config_path
無
easyrec配置文件輸出路徑
是
EasyRec配置文件的輸出路徑。
拼裝成
output_config_path參數
無
easyrec配置文件文件名
是
EasyRec配置文件的文件名。
無
指定算法版本
是
自定義EasyRec的算法源代碼包:
請先參考文檔EasyRec版本更新,生成一個EasyRec的tar包。
上傳對應版本的tar包到OSS全路徑,詳情請參見控制臺上傳文件。
在這個參數中選中上傳的tar文件所在的OSS全路徑。
script
無
執行調優
Worker數量
否
Worker的數量。
完整的執行調優參數會拼裝成cluster參數
1
Worker CPU用量
否
Worker申請的CPU數量,取值1表示一個CPU核。
8
Worker Memory用量
否
Worker申請的內存,取值100表示100 MB。
40000
Worker GPU卡數
否
在EasyRec訓練中,一般不需要使用GPU。
0
輸出樁
輸出樁(從左到右)
數據類型
對應PAI命令參數
是否必選
easyrec配置輸出
OSS路徑/模型訓練
output_config_path
是
方式二:PAI命令及說明
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -project algo_public -name easy_rec_ext
-Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole"
-Dbuckets="oss://rec_sln_demo/"
-Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 800, \"gpu\": 0, \"memory\": 40000}}"
-Dcmd="custom"
-DentryFile="easy_rec/python/tools/add_feature_info_to_config.py"
-Dextra_params="--template_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/rec_sln_demo_dssm_recall_v1_template.config --output_config_path=oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1//rec_sln_demo_dssm_recall_v1.config --config_table=odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable"
-Dlifecycle="28"
-DossHost="oss-cn-hangzhou-internal.aliyuncs.com"
-Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz"
-Dtables="odps://pai_hangzhou/tables/pai_temp_flow_26un8zq7v4goadi373_node_2m6yfr7q3a69m9jv7n_outputTable";
參數名稱 | 是否必選 | 描述 |
entryFile | 是 | 入口文件,執行add_feature_info_to_config.py腳本。 |
cmd | 是 | cmd配置為custom時,表示執行EasyRec的自定義腳本。 |
arn | 是 | 指定資源組授權,您可以登錄PAI控制臺,在開通和授權>全部云產品依賴頁面的Designer區域,單擊操作列下的查看授權信息,獲取arn。 |
ossHost | 是 | OSS Endpoint,地域和Endpoint對照表請參見訪問域名和數據中心。 |
buckets | 是 | 配置EasyRec的tar文件所在的Bucket和保存模型的Bucket。如果有多個Bucket,使用半角逗號(,)分隔,例如 |
extra_params | 是 | 額外參數,PAI Flow上沒有定義的參數,指定 臨時文件template_config_path、輸出路徑output_config_path和 特征信息表config_table參數。 |
script | 否 | 參考文檔EasyRec版本更新生成EasyRec的tar包,并上傳到OSS,指定tar包的OSS全路徑。測試腳本tar包:easy_rec_ext_0.6.1_res.tar.gz。 |
使用示例
下載特征信息數據dssm_recall_30d_config_v1.csv和臨時文件template.config。
特征信息數據和臨時文件template.config由推薦算法定制生成,這里為了方便,直接提供數據和文件。
通過MaxCompute客戶端,為特征信息創建數據表,關于MaxCompute客戶端的使用,請參見使用本地客戶端(odpscmd)連接。
CREATE TABLE IF NOT EXISTS dssm_recall_30d_config_v1(feature STRING,feature_info STRING,message STRING);
將下載的數據集dssm_recall_30d_config_v1.csv上傳到已創建的MaxCompute表中。關于如何使用MaxCompute客戶端上傳數據,請參見Tunnel命令。
tunnel upload dssm_recall_30d_config_v1.csv dssm_recall_30d_config_v1 -fd \t;
上傳臨時文件template.config到OSS。具體操作,請參見控制臺上傳文件。
創建如下工作流。
區域
描述
①
配置讀數據表-51的表名參數為已創建的dssm_recall_30d_config_v1表。
②
在更新EasyRec配置文件-1組件的參數設置頁簽,配置以下參數:
推薦模板生成的模板配置文件:選擇臨時文件template.config所在的OSS路徑。
easyrec配置文件輸出路徑:選擇配置文件輸出路徑。輸出路徑不能直接選擇Bucket級別,必須選擇Bucket下面某個層級(Bucket下的目錄級別)。
easyrec配置文件文件名:填寫自定義的文件名。
指定算法版本:參考文檔EasyRec版本更新生成EasyRec的tar包,并上傳到OSS,指定tar包的OSS全路徑。測試腳本tar包:easy_rec_ext_0.6.1_res.tar.gz。
單擊運行工作流。
工作流運行結束后,您可以在參數easyrec配置文件輸出路徑配置的OSS路徑下,查看輸出的EasyRec配置文件。
相關文檔
關于該組件更完整的使用流程,請參考推薦算法定制-向量召回案例的節點 11_rec_sln_demo_dssm_recall_v1_update_config ,該節點使用了更新EasyRec配置文件組件。