在LLM服務和搜索推廣等諸多模型服務場景中,經常需要根據服務線上的效果調整模型服務,通過調整不同模型服務之間的流量分配,從而幫助業務方進行成本最低的快速實驗,從而保證線上的模型服務效應最大化。A/B實驗(ABTest)提供更加通用化的A/B評測實驗能力,提供開箱即用的A/B平臺能力。
使用限制
目前,僅華北2(北京)、華東2(上海)、華東1(杭州)和華南1(深圳)地域支持使用A/B實驗(ABTest)。
目前,A/B實驗(ABTest)暫不支持使用角色SSO的訪問方式,僅支持通過RAM子賬號進行訪問。
名詞解釋
實驗管理
實驗:實驗即為需要AB測試的不同實驗版本組合,可包含 AA、 AB、ABC等不同組合方式。實驗里的流量來自于實驗層上,一個實驗層上可以包含多個實驗,這些實驗之間的流量是互斥的。實驗管理的是一組參數配置,可以控制程序執行流程,實驗中的每個版本按照流量隨機劃分,不同的參數也可以對比其不同的效果。
實驗項目:業務邏輯的聚合。比如LLM的Agent場景,相似業務場景下的服務都可以作為單獨的場景。
實驗域:一組流量的集合,也可根據具體的業務劃分,由業務的屬性來根據條件篩選決定,也可以隨機分配。當由業務決定實驗域流量的劃分,用戶可以自定義實現劃分邏輯。
實驗層:實驗域下面包含一個或多個實驗層。每個實驗層的流量是正交的,每個實驗層都會承載所在實驗域的所有流量。
流量管理
人群:代表實驗接入的一組特定流量ID的集合。
指標管理
指標:代表實驗之間進行評判優劣的性能和服務等指標。
數據表:用于統計實驗指標所需的數據源和相關字段。
全局配置
發布管理:將實驗組中的效果更好的實驗進行參數的推全。
計費說明
當前A/B實驗(ABTest)功能已邀測發布,功能本身免費使用。其中會涉及到模型在線服務(EAS)和MaxCompute等相關云產品,這些云產品的計費單獨收取,詳情請參見模型在線服務(EAS)計費說明和MaxCompute計費概述。
權限說明
為子賬號授予訪問ABTest的權限
為子賬號授予 ABTest 的管理權限后,RAM用戶即可擁有使用 ABTest 功能的完整權限。
主賬號登錄RAM 控制臺。
創建權限策略,選擇腳本編輯,將下列內容復制進去即可,策略名稱為pai_abtest_full_access。具體操作請參見創建自定義權限策略。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": "paiabtest:*", "Resource": "*" } ] }
在授權頁面,將pai_abtest_full_access授予給子賬號即可。具體操作請參見為RAM用戶授權。
為ABTest授予訪問其他云產品的權限
A/B實驗(ABTest)需要進行SLR授權,權限角色名稱為AliyunServiceRoleForPAIABTest。涉及到的權限內容如下所示。
{
"Version": "1",
"Statement": [
{
"Action": "ram:DeleteServiceLinkedRole",
"Resource": "*",
"Effect": "Allow",
"Condition": {
"StringEquals": {
"ram:ServiceName": "abtest.pai.aliyuncs.com"
}
}
},
{
"Effect": "Allow",
"Action": [
"odps:ActOnBehalfOfAnotherUser",
"odps:ListProjects",
"odps:ListTables"
],
"Resource": "acs:odps:*:*:users/*"
}
]
}