日本亚洲成a人片在线观看,综合欧美日韩国产成人,欧美成人精品视频在线播放

在大模型時(shí)代，模型評(píng)測(cè)是衡量性能、精選和優(yōu)化模型的關(guān)鍵環(huán)節(jié)，對(duì)加快AI創(chuàng)新和實(shí)踐至關(guān)重要。PAI大模型評(píng)測(cè)平臺(tái)支持多樣化的評(píng)測(cè)場(chǎng)景，如不同基礎(chǔ)模型、微調(diào)版本和量化版本的對(duì)比分析。本文為您介紹針對(duì)于不同用戶群體及對(duì)應(yīng)數(shù)據(jù)集類型，如何實(shí)現(xiàn)更全面準(zhǔn)確且具有針對(duì)性的模型評(píng)測(cè)，從而在AI領(lǐng)域可以更好地取得成就。

背景信息

內(nèi)容簡(jiǎn)介

在大模型時(shí)代，隨著模型效果的顯著提升，模型評(píng)測(cè)的重要性日益凸顯。科學(xué)、高效的模型評(píng)測(cè)，不僅能幫助開發(fā)者有效地衡量和對(duì)比不同模型的性能，更能指導(dǎo)他們進(jìn)行精準(zhǔn)地模型選擇和優(yōu)化，加速AI創(chuàng)新和應(yīng)用落地。因此，建立一套平臺(tái)化的大模型評(píng)測(cè)最佳實(shí)踐愈發(fā)重要。

本文為PAI大模型評(píng)測(cè)最佳實(shí)踐，旨在指引AI開發(fā)人員使用PAI平臺(tái)進(jìn)行大模型評(píng)測(cè)。借助本文，您可以輕松構(gòu)建出既能反映模型真實(shí)性能，又能滿足行業(yè)特定需求的評(píng)測(cè)過(guò)程，助力您在人工智能賽道上取得更好的成績(jī)。最佳實(shí)踐包括如下內(nèi)容：

如何準(zhǔn)備和選擇評(píng)測(cè)數(shù)據(jù)集
如何選擇適合業(yè)務(wù)的開源或微調(diào)后模型
如何創(chuàng)建評(píng)測(cè)任務(wù)并選擇合適的評(píng)價(jià)指標(biāo)
如何在單任務(wù)或多任務(wù)場(chǎng)景下解讀評(píng)測(cè)結(jié)果

平臺(tái)特點(diǎn)

PAI大模型評(píng)測(cè)平臺(tái)，適合您針對(duì)不同的大模型評(píng)測(cè)場(chǎng)景，進(jìn)行模型效果對(duì)比。例如：

不同基礎(chǔ)模型對(duì)比：Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
同一模型不同微調(diào)版本對(duì)比：Qwen2-7B-Instruct 在私有領(lǐng)域數(shù)據(jù)下訓(xùn)練不同epoch版本效果對(duì)比
同一模型不同量化版本對(duì)比：Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求，本文將以企業(yè)開發(fā)者與算法研究人員兩個(gè)典型群體為例，探討如何結(jié)合企業(yè)的自定義數(shù)據(jù)集與常用的公開數(shù)據(jù)集（如MMLU、C-Eval等），實(shí)現(xiàn)更全面準(zhǔn)確并具有針對(duì)性的模型評(píng)測(cè)，查找適合您業(yè)務(wù)需求的大模型。本實(shí)踐特點(diǎn)如下：

端到端完整評(píng)測(cè)鏈路，無(wú)需代碼開發(fā)，支持主流開源大模型，與大模型微調(diào)后的一鍵評(píng)測(cè)。
支持用戶自定義數(shù)據(jù)集上傳，內(nèi)置10+通用NLP評(píng)測(cè)指標(biāo)，一覽式結(jié)果展示，無(wú)需再開發(fā)評(píng)測(cè)腳本。
支持多個(gè)領(lǐng)域的常用公開數(shù)據(jù)集評(píng)測(cè)，完整還原官方評(píng)測(cè)方法，雷達(dá)圖全景展示，省去逐個(gè)下載評(píng)測(cè)集和熟悉評(píng)測(cè)流程的繁雜。
支持多模型多任務(wù)同時(shí)評(píng)測(cè)，評(píng)測(cè)結(jié)果圖表式對(duì)比展示，輔以單條評(píng)測(cè)結(jié)果詳情，方便全方位比較分析。
評(píng)測(cè)過(guò)程公開透明，結(jié)果可復(fù)現(xiàn)。評(píng)測(cè)代碼開源在與ModelScope共建的開源代碼庫(kù)eval-scope中，方便查看細(xì)節(jié)與復(fù)現(xiàn)評(píng)測(cè)結(jié)果。

計(jì)費(fèi)說(shuō)明

PAI大模型評(píng)測(cè)依托于PAI-快速開始產(chǎn)品。快速開始本身不收費(fèi)，但使用快速開始進(jìn)行模型評(píng)測(cè)時(shí)，可能產(chǎn)生DLC評(píng)測(cè)任務(wù)費(fèi)用，計(jì)費(fèi)詳情請(qǐng)參見分布式訓(xùn)練（DLC）計(jì)費(fèi)說(shuō)明。
如果選擇自定義數(shù)據(jù)集評(píng)測(cè)，使用OSS存儲(chǔ)時(shí)會(huì)產(chǎn)生相關(guān)費(fèi)用，計(jì)費(fèi)詳情請(qǐng)參見OSS計(jì)費(fèi)概述。

場(chǎng)景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評(píng)測(cè)

企業(yè)通常會(huì)積累豐富的私有領(lǐng)域數(shù)據(jù)。如何充分利用好這部分?jǐn)?shù)據(jù)，是企業(yè)使用大模型進(jìn)行算法優(yōu)化的關(guān)鍵。因此，企業(yè)開發(fā)者在評(píng)測(cè)開源或微調(diào)后的大模型時(shí)，往往會(huì)基于私有領(lǐng)域下積累的自定義數(shù)據(jù)集，以便于更好地了解大模型在私有領(lǐng)域的效果。

對(duì)于自定義數(shù)據(jù)集評(píng)測(cè)，PAI大模型評(píng)測(cè)平臺(tái)使用NLP領(lǐng)域標(biāo)準(zhǔn)的文本匹配方式，計(jì)算模型輸出結(jié)果和真實(shí)結(jié)果的匹配度，值越大，模型越好。使用該評(píng)測(cè)方式，基于自己場(chǎng)景的獨(dú)特?cái)?shù)據(jù)，可以評(píng)測(cè)所選模型是否適合自己的場(chǎng)景。

以下將重點(diǎn)展示使用過(guò)程中的一些關(guān)鍵點(diǎn)，更詳細(xì)的操作細(xì)節(jié)，請(qǐng)參見模型評(píng)測(cè)。

準(zhǔn)備自定義評(píng)測(cè)集。
1. 自定義評(píng)測(cè)集格式說(shuō)明：
  基于自定義數(shù)據(jù)集進(jìn)行評(píng)測(cè)時(shí)，需要準(zhǔn)備JSONL格式的評(píng)測(cè)集文件（示例文件：llmuses_general_qa_test.jsonl，76 KB）。格式如下：
```
[{"question": "中國(guó)發(fā)明了造紙術(shù)，是否正確？", "answer": "正確"}]
[{"question": "中國(guó)發(fā)明了火藥，是否正確？", "answer": "正確"}]
```
  使用question標(biāo)識(shí)問(wèn)題列，answer標(biāo)識(shí)答案列。
2. 上傳符合格式的評(píng)測(cè)集文件至OSS，詳情請(qǐng)參見上傳文件至OSS。
3. 根據(jù)OSS中評(píng)測(cè)集文件創(chuàng)建評(píng)測(cè)集。詳情請(qǐng)參見創(chuàng)建數(shù)據(jù)集：從阿里云云產(chǎn)品。
選擇適合業(yè)務(wù)的模型。
使用開源模型
在PAI控制臺(tái)左側(cè)導(dǎo)航欄快速開始頁(yè)面中，鼠標(biāo)懸浮在模型卡片上，對(duì)于可評(píng)測(cè)的模型，會(huì)顯示評(píng)測(cè)按鈕。
使用微調(diào)后的模型
在PAI控制臺(tái)左側(cè)導(dǎo)航欄快速開始頁(yè)面中，鼠標(biāo)懸浮在模型卡片上，對(duì)于可評(píng)測(cè)的模型，會(huì)顯示評(píng)測(cè)按鈕。對(duì)可評(píng)測(cè)的模型進(jìn)行微調(diào)訓(xùn)練，然后在快速開始 > 任務(wù)管理 > 訓(xùn)練任務(wù)頁(yè)面中單擊已訓(xùn)練成功的任務(wù)，右上角會(huì)顯示評(píng)測(cè)按鈕。
當(dāng)前模型評(píng)測(cè)功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

創(chuàng)建并運(yùn)行評(píng)測(cè)任務(wù)。

在模型詳情頁(yè)右上角單擊評(píng)測(cè)，創(chuàng)建評(píng)測(cè)任務(wù)。

關(guān)鍵參數(shù)配置如下：

參數(shù)	描述
數(shù)據(jù)集	選擇上文所創(chuàng)建的自定義數(shù)據(jù)集。
結(jié)果輸出路徑	指定最終評(píng)測(cè)結(jié)果保存的OSS路徑。
資源組類型	根據(jù)實(shí)際情況，選擇公共資源組或通用計(jì)算資源。
任務(wù)資源	如果資源組類型為公共資源組時(shí)，默認(rèn)會(huì)根據(jù)您的模型規(guī)格推薦相應(yīng)資源。

單擊提交，任務(wù)開始運(yùn)行。

查看評(píng)測(cè)結(jié)果。
單任務(wù)結(jié)果
當(dāng)快速開始 > 任務(wù)管理 > 模型評(píng)測(cè)頁(yè)面中評(píng)測(cè)任務(wù)的狀態(tài)列顯示已成功時(shí)，單擊操作列的查看報(bào)告，在自定義數(shù)據(jù)集評(píng)測(cè)結(jié)果頁(yè)面查看模型在ROUGE和BLEU系列指標(biāo)上的得分。
此外還會(huì)展示評(píng)測(cè)文件每條數(shù)據(jù)的評(píng)測(cè)詳情。
多任務(wù)對(duì)比結(jié)果
在快速開始 > 任務(wù)管理 > 模型評(píng)測(cè)頁(yè)面中選中要對(duì)比的模型評(píng)測(cè)任務(wù)，右上角單擊對(duì)比，在自定義數(shù)據(jù)集評(píng)測(cè)結(jié)果頁(yè)面查看對(duì)比結(jié)果。
評(píng)測(cè)結(jié)果解析：
自定義數(shù)據(jù)集的默認(rèn)評(píng)測(cè)指標(biāo)包括：rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。
- rouge-n類指標(biāo)計(jì)算N-gram（連續(xù)的N個(gè)詞）的重疊度，其中rouge-1和rouge-2是最常用的，分別對(duì)應(yīng)unigram和bigram，rouge-l指標(biāo)基于最長(zhǎng)公共子序列（LCS）。
- bleu (Bilingual Evaluation Understudy) 是另一種流行的評(píng)估機(jī)器翻譯質(zhì)量的指標(biāo)，它通過(guò)測(cè)量機(jī)器翻譯輸出與一組參考翻譯之間的N-gram重疊度來(lái)評(píng)分。其中bleu-n指標(biāo)計(jì)算N-gram的匹配度。
最終評(píng)測(cè)結(jié)果會(huì)保存到之前設(shè)置的結(jié)果輸出路徑中。

場(chǎng)景二：面向算法研究人員的公開數(shù)據(jù)集評(píng)測(cè)

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型，或?qū)δＰ瓦M(jìn)行微調(diào)后，都會(huì)參考其在權(quán)威公開數(shù)據(jù)集上的評(píng)測(cè)效果。然而，大模型時(shí)代的公開數(shù)據(jù)集種類繁多，研究人員需要花費(fèi)大量時(shí)間調(diào)研選擇適合自己領(lǐng)域的公開數(shù)據(jù)集，并熟悉每個(gè)數(shù)據(jù)集的評(píng)測(cè)流程。為方便算法研究人員，PAI接入了多個(gè)領(lǐng)域的公開數(shù)據(jù)集，并完整還原了各個(gè)數(shù)據(jù)集官方指定的評(píng)測(cè)metrics，以便獲取最準(zhǔn)確的評(píng)測(cè)效果反饋，助力更高效的大模型研究。

在公開數(shù)據(jù)集評(píng)測(cè)中，PAI大模型評(píng)測(cè)平臺(tái)通過(guò)對(duì)開源的評(píng)測(cè)數(shù)據(jù)集按領(lǐng)域分類，對(duì)大模型進(jìn)行綜合能力評(píng)估，例如數(shù)學(xué)能力、知識(shí)能力、推理能力等，值越大，模型越好，這種評(píng)測(cè)方式也是大模型領(lǐng)域最常見的評(píng)測(cè)方式。

以下將重點(diǎn)展示使用過(guò)程中的一些關(guān)鍵點(diǎn)，更詳細(xì)的操作細(xì)節(jié)，請(qǐng)參見模型評(píng)測(cè)。

支持的公開數(shù)據(jù)集說(shuō)明：

目前PAI維護(hù)的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA，其他公開數(shù)據(jù)集陸續(xù)接入中。

數(shù)據(jù)集	大小	數(shù)據(jù)量	領(lǐng)域
MMLU	166 MB	14042	知識(shí)
TriviaQA	14.3 MB	17944	知識(shí)
C-Eval	1.55 MB	12342	中文
CMMLU	1.08 MB	11582	中文
GSM8K	4.17 MB	1319	數(shù)學(xué)
HellaSwag	47.5 MB	10042	推理
TruthfulQA	0.284 MB	816	安全性

選擇適合業(yè)務(wù)的模型。
使用開源模型
在PAI控制臺(tái)左側(cè)導(dǎo)航欄快速開始頁(yè)面中，鼠標(biāo)懸浮在模型卡片上，對(duì)于可評(píng)測(cè)的模型，會(huì)顯示評(píng)測(cè)按鈕。
使用微調(diào)后的模型
在PAI控制臺(tái)左側(cè)導(dǎo)航欄快速開始頁(yè)面中，鼠標(biāo)懸浮在模型卡片上，對(duì)于可評(píng)測(cè)的模型，會(huì)顯示評(píng)測(cè)按鈕。對(duì)可評(píng)測(cè)的模型進(jìn)行微調(diào)訓(xùn)練，然后在快速開始 > 任務(wù)管理 > 訓(xùn)練任務(wù)頁(yè)面中單擊已訓(xùn)練成功的任務(wù)，右上角會(huì)顯示評(píng)測(cè)按鈕。
當(dāng)前模型評(píng)測(cè)功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

創(chuàng)建并運(yùn)行評(píng)測(cè)任務(wù)。

在模型詳情頁(yè)右上角單擊評(píng)測(cè)，創(chuàng)建評(píng)測(cè)任務(wù)。

關(guān)鍵參數(shù)配置如下：

參數(shù)	描述
數(shù)據(jù)集	選擇公開數(shù)據(jù)集。
結(jié)果輸出路徑	指定最終評(píng)測(cè)結(jié)果保存的OSS路徑。
資源組類型	根據(jù)實(shí)際情況，選擇公共資源組或通用計(jì)算資源。
任務(wù)資源	如果資源組類型為公共資源組時(shí)，默認(rèn)會(huì)根據(jù)您的模型規(guī)格推薦相應(yīng)資源。

單擊提交，任務(wù)開始運(yùn)行。

查看評(píng)測(cè)結(jié)果。
單任務(wù)結(jié)果
當(dāng)快速開始 > 任務(wù)管理 > 模型評(píng)測(cè)頁(yè)面中評(píng)測(cè)任務(wù)的狀態(tài)列顯示已成功時(shí)，單擊操作列的查看報(bào)告，在公開數(shù)據(jù)集評(píng)測(cè)結(jié)果頁(yè)面查看模型在各領(lǐng)域及數(shù)據(jù)集上的得分。
多任務(wù)對(duì)比結(jié)果
在快速開始 > 任務(wù)管理 > 模型評(píng)測(cè)頁(yè)面中選中要對(duì)比的模型評(píng)測(cè)任務(wù)，右上角單擊對(duì)比，在公開數(shù)據(jù)集評(píng)測(cè)結(jié)果頁(yè)面查看對(duì)比結(jié)果。
評(píng)測(cè)結(jié)果解析：
- 左圖展示了模型在不同領(lǐng)域的得分情況。每個(gè)領(lǐng)域可能會(huì)有多個(gè)與之相關(guān)的數(shù)據(jù)集，對(duì)屬于同一領(lǐng)域的數(shù)據(jù)集，PAI大模型評(píng)測(cè)平臺(tái)會(huì)把模型在這些數(shù)據(jù)集上的評(píng)測(cè)得分取均值，作為領(lǐng)域得分。
- 右圖展示模型在各個(gè)公開數(shù)據(jù)集的得分情況。每個(gè)公開數(shù)據(jù)集的評(píng)測(cè)范圍詳見公開數(shù)據(jù)集說(shuō)明。
最終評(píng)測(cè)結(jié)果會(huì)保存到之前設(shè)置的結(jié)果輸出路徑中。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

大模型評(píng)測(cè)最佳實(shí)踐

背景信息

內(nèi)容簡(jiǎn)介

平臺(tái)特點(diǎn)

計(jì)費(fèi)說(shuō)明

場(chǎng)景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評(píng)測(cè)

使用開源模型

使用微調(diào)后的模型

單任務(wù)結(jié)果

多任務(wù)對(duì)比結(jié)果

場(chǎng)景二：面向算法研究人員的公開數(shù)據(jù)集評(píng)測(cè)

使用開源模型

使用微調(diào)后的模型

單任務(wù)結(jié)果

多任務(wù)對(duì)比結(jié)果

相關(guān)文檔