亚洲无码日逼视频,婷婷俺也去五月综合,亚洲成a人片在线播放无码

在大模型時代，模型評測是衡量性能、精選和優(yōu)化模型的關鍵環(huán)節(jié)，對加快AI創(chuàng)新和實踐至關重要。PAI大模型評測平臺支持多樣化的評測場景，如不同基礎模型、微調(diào)版本和量化版本的對比分析。本文為您介紹針對于不同用戶群體及對應數(shù)據(jù)集類型，如何實現(xiàn)更全面準確且具有針對性的模型評測，從而在AI領域可以更好地取得成就。

背景信息

內(nèi)容簡介

在大模型時代，隨著模型效果的顯著提升，模型評測的重要性日益凸顯。科學、高效的模型評測，不僅能幫助開發(fā)者有效地衡量和對比不同模型的性能，更能指導他們進行精準地模型選擇和優(yōu)化，加速AI創(chuàng)新和應用落地。因此，建立一套平臺化的大模型評測最佳實踐愈發(fā)重要。

本文為PAI大模型評測最佳實踐，旨在指引AI開發(fā)人員使用PAI平臺進行大模型評測。借助本文，您可以輕松構建出既能反映模型真實性能，又能滿足行業(yè)特定需求的評測過程，助力您在人工智能賽道上取得更好的成績。最佳實踐包括如下內(nèi)容：

如何準備和選擇評測數(shù)據(jù)集
如何選擇適合業(yè)務的開源或微調(diào)后模型
如何創(chuàng)建評測任務并選擇合適的評價指標
如何在單任務或多任務場景下解讀評測結果

平臺特點

PAI大模型評測平臺，適合您針對不同的大模型評測場景，進行模型效果對比。例如：

不同基礎模型對比：Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
同一模型不同微調(diào)版本對比：Qwen2-7B-Instruct 在私有領域數(shù)據(jù)下訓練不同epoch版本效果對比
同一模型不同量化版本對比：Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求，本文將以企業(yè)開發(fā)者與算法研究人員兩個典型群體為例，探討如何結合企業(yè)的自定義數(shù)據(jù)集與常用的公開數(shù)據(jù)集（如MMLU、C-Eval等），實現(xiàn)更全面準確并具有針對性的模型評測，查找適合您業(yè)務需求的大模型。本實踐特點如下：

端到端完整評測鏈路，無需代碼開發(fā)，支持主流開源大模型，與大模型微調(diào)后的一鍵評測。
支持用戶自定義數(shù)據(jù)集上傳，內(nèi)置10+通用NLP評測指標，一覽式結果展示，無需再開發(fā)評測腳本。
支持多個領域的常用公開數(shù)據(jù)集評測，完整還原官方評測方法，雷達圖全景展示，省去逐個下載評測集和熟悉評測流程的繁雜。
支持多模型多任務同時評測，評測結果圖表式對比展示，輔以單條評測結果詳情，方便全方位比較分析。
評測過程公開透明，結果可復現(xiàn)。評測代碼開源在與ModelScope共建的開源代碼庫eval-scope中，方便查看細節(jié)與復現(xiàn)評測結果。

計費說明

PAI大模型評測依托于PAI-快速開始產(chǎn)品。快速開始本身不收費，但使用快速開始進行模型評測時，可能產(chǎn)生DLC評測任務費用，計費詳情請參見分布式訓練（DLC）計費說明。
如果選擇自定義數(shù)據(jù)集評測，使用OSS存儲時會產(chǎn)生相關費用，計費詳情請參見OSS計費概述。

場景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評測

企業(yè)通常會積累豐富的私有領域數(shù)據(jù)。如何充分利用好這部分數(shù)據(jù)，是企業(yè)使用大模型進行算法優(yōu)化的關鍵。因此，企業(yè)開發(fā)者在評測開源或微調(diào)后的大模型時，往往會基于私有領域下積累的自定義數(shù)據(jù)集，以便于更好地了解大模型在私有領域的效果。

對于自定義數(shù)據(jù)集評測，PAI大模型評測平臺使用NLP領域標準的文本匹配方式，計算模型輸出結果和真實結果的匹配度，值越大，模型越好。使用該評測方式，基于自己場景的獨特數(shù)據(jù)，可以評測所選模型是否適合自己的場景。

以下將重點展示使用過程中的一些關鍵點，更詳細的操作細節(jié)，請參見模型評測。

準備自定義評測集。
1. 自定義評測集格式說明：
  基于自定義數(shù)據(jù)集進行評測時，需要準備JSONL格式的評測集文件（示例文件：llmuses_general_qa_test.jsonl，76 KB）。格式如下：
```
[{"question": "中國發(fā)明了造紙術，是否正確？", "answer": "正確"}]
[{"question": "中國發(fā)明了火藥，是否正確？", "answer": "正確"}]
```
  使用question標識問題列，answer標識答案列。
2. 上傳符合格式的評測集文件至OSS，詳情請參見上傳文件至OSS。
3. 根據(jù)OSS中評測集文件創(chuàng)建評測集。詳情請參見創(chuàng)建數(shù)據(jù)集：從阿里云云產(chǎn)品。
選擇適合業(yè)務的模型。
使用開源模型
在PAI控制臺左側導航欄快速開始頁面中，鼠標懸浮在模型卡片上，對于可評測的模型，會顯示評測按鈕。
使用微調(diào)后的模型
在PAI控制臺左側導航欄快速開始頁面中，鼠標懸浮在模型卡片上，對于可評測的模型，會顯示評測按鈕。對可評測的模型進行微調(diào)訓練，然后在快速開始 > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務，右上角會顯示評測按鈕。
當前模型評測功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

創(chuàng)建并運行評測任務。

在模型詳情頁右上角單擊評測，創(chuàng)建評測任務。

關鍵參數(shù)配置如下：

參數(shù)	描述
數(shù)據(jù)集	選擇上文所創(chuàng)建的自定義數(shù)據(jù)集。
結果輸出路徑	指定最終評測結果保存的OSS路徑。
資源組類型	根據(jù)實際情況，選擇公共資源組或通用計算資源。
任務資源	如果資源組類型為公共資源組時，默認會根據(jù)您的模型規(guī)格推薦相應資源。

單擊提交，任務開始運行。

查看評測結果。
單任務結果
當快速開始 > 任務管理 > 模型評測頁面中評測任務的狀態(tài)列顯示已成功時，單擊操作列的查看報告，在自定義數(shù)據(jù)集評測結果頁面查看模型在ROUGE和BLEU系列指標上的得分。
此外還會展示評測文件每條數(shù)據(jù)的評測詳情。
多任務對比結果
在快速開始 > 任務管理 > 模型評測頁面中選中要對比的模型評測任務，右上角單擊對比，在自定義數(shù)據(jù)集評測結果頁面查看對比結果。
評測結果解析：
自定義數(shù)據(jù)集的默認評測指標包括：rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。
- rouge-n類指標計算N-gram（連續(xù)的N個詞）的重疊度，其中rouge-1和rouge-2是最常用的，分別對應unigram和bigram，rouge-l指標基于最長公共子序列（LCS）。
- bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機器翻譯質(zhì)量的指標，它通過測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標計算N-gram的匹配度。
最終評測結果會保存到之前設置的結果輸出路徑中。

場景二：面向算法研究人員的公開數(shù)據(jù)集評測

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型，或對模型進行微調(diào)后，都會參考其在權威公開數(shù)據(jù)集上的評測效果。然而，大模型時代的公開數(shù)據(jù)集種類繁多，研究人員需要花費大量時間調(diào)研選擇適合自己領域的公開數(shù)據(jù)集，并熟悉每個數(shù)據(jù)集的評測流程。為方便算法研究人員，PAI接入了多個領域的公開數(shù)據(jù)集，并完整還原了各個數(shù)據(jù)集官方指定的評測metrics，以便獲取最準確的評測效果反饋，助力更高效的大模型研究。

在公開數(shù)據(jù)集評測中，PAI大模型評測平臺通過對開源的評測數(shù)據(jù)集按領域分類，對大模型進行綜合能力評估，例如數(shù)學能力、知識能力、推理能力等，值越大，模型越好，這種評測方式也是大模型領域最常見的評測方式。

以下將重點展示使用過程中的一些關鍵點，更詳細的操作細節(jié)，請參見模型評測。

支持的公開數(shù)據(jù)集說明：

目前PAI維護的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA，其他公開數(shù)據(jù)集陸續(xù)接入中。

數(shù)據(jù)集	大小	數(shù)據(jù)量	領域
MMLU	166 MB	14042	知識
TriviaQA	14.3 MB	17944	知識
C-Eval	1.55 MB	12342	中文
CMMLU	1.08 MB	11582	中文
GSM8K	4.17 MB	1319	數(shù)學
HellaSwag	47.5 MB	10042	推理
TruthfulQA	0.284 MB	816	安全性

選擇適合業(yè)務的模型。
使用開源模型
在PAI控制臺左側導航欄快速開始頁面中，鼠標懸浮在模型卡片上，對于可評測的模型，會顯示評測按鈕。
使用微調(diào)后的模型
在PAI控制臺左側導航欄快速開始頁面中，鼠標懸浮在模型卡片上，對于可評測的模型，會顯示評測按鈕。對可評測的模型進行微調(diào)訓練，然后在快速開始 > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務，右上角會顯示評測按鈕。
當前模型評測功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

創(chuàng)建并運行評測任務。

在模型詳情頁右上角單擊評測，創(chuàng)建評測任務。

關鍵參數(shù)配置如下：

參數(shù)	描述
數(shù)據(jù)集	選擇公開數(shù)據(jù)集。
結果輸出路徑	指定最終評測結果保存的OSS路徑。
資源組類型	根據(jù)實際情況，選擇公共資源組或通用計算資源。
任務資源	如果資源組類型為公共資源組時，默認會根據(jù)您的模型規(guī)格推薦相應資源。

單擊提交，任務開始運行。

查看評測結果。
單任務結果
當快速開始 > 任務管理 > 模型評測頁面中評測任務的狀態(tài)列顯示已成功時，單擊操作列的查看報告，在公開數(shù)據(jù)集評測結果頁面查看模型在各領域及數(shù)據(jù)集上的得分。
多任務對比結果
在快速開始 > 任務管理 > 模型評測頁面中選中要對比的模型評測任務，右上角單擊對比，在公開數(shù)據(jù)集評測結果頁面查看對比結果。
評測結果解析：
- 左圖展示了模型在不同領域的得分情況。每個領域可能會有多個與之相關的數(shù)據(jù)集，對屬于同一領域的數(shù)據(jù)集，PAI大模型評測平臺會把模型在這些數(shù)據(jù)集上的評測得分取均值，作為領域得分。
- 右圖展示模型在各個公開數(shù)據(jù)集的得分情況。每個公開數(shù)據(jù)集的評測范圍詳見公開數(shù)據(jù)集說明。
最終評測結果會保存到之前設置的結果輸出路徑中。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

大模型評測最佳實踐

背景信息

內(nèi)容簡介

平臺特點

計費說明

場景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評測

使用開源模型

使用微調(diào)后的模型

單任務結果

多任務對比結果

場景二：面向算法研究人員的公開數(shù)據(jù)集評測

使用開源模型

使用微調(diào)后的模型

單任務結果

多任務對比結果

相關文檔