日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

大模型評測最佳實踐

在大模型時代,模型評測是衡量性能、精選和優(yōu)化模型的關鍵環(huán)節(jié),對加快AI創(chuàng)新和實踐至關重要。PAI大模型評測平臺支持多樣化的評測場景,如不同基礎模型、微調(diào)版本和量化版本的對比分析。本文為您介紹針對于不同用戶群體及對應數(shù)據(jù)集類型,如何實現(xiàn)更全面準確且具有針對性的模型評測,從而在AI領域可以更好地取得成就。

背景信息

內(nèi)容簡介

在大模型時代,隨著模型效果的顯著提升,模型評測的重要性日益凸顯。科學、高效的模型評測,不僅能幫助開發(fā)者有效地衡量和對比不同模型的性能,更能指導他們進行精準地模型選擇和優(yōu)化,加速AI創(chuàng)新和應用落地。因此,建立一套平臺化的大模型評測最佳實踐愈發(fā)重要。

本文為PAI大模型評測最佳實踐,旨在指引AI開發(fā)人員使用PAI平臺進行大模型評測。借助本文,您可以輕松構建出既能反映模型真實性能,又能滿足行業(yè)特定需求的評測過程,助力您在人工智能賽道上取得更好的成績。最佳實踐包括如下內(nèi)容:

  • 如何準備和選擇評測數(shù)據(jù)集

  • 如何選擇適合業(yè)務的開源或微調(diào)后模型

  • 如何創(chuàng)建評測任務并選擇合適的評價指標

  • 如何在單任務或多任務場景下解讀評測結果

平臺特點

PAI大模型評測平臺,適合您針對不同的大模型評測場景,進行模型效果對比。例如:

  • 不同基礎模型對比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

  • 同一模型不同微調(diào)版本對比:Qwen2-7B-Instruct 在私有領域數(shù)據(jù)下訓練不同epoch版本效果對比

  • 同一模型不同量化版本對比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求,本文將以企業(yè)開發(fā)者算法研究人員兩個典型群體為例,探討如何結合企業(yè)的自定義數(shù)據(jù)集與常用的公開數(shù)據(jù)集(如MMLU、C-Eval等),實現(xiàn)更全面準確并具有針對性的模型評測,查找適合您業(yè)務需求的大模型。本實踐特點如下:

  • 端到端完整評測鏈路,無需代碼開發(fā),支持主流開源大模型,與大模型微調(diào)后的一鍵評測。

  • 支持用戶自定義數(shù)據(jù)集上傳,內(nèi)置10+通用NLP評測指標,一覽式結果展示,無需再開發(fā)評測腳本。

  • 支持多個領域的常用公開數(shù)據(jù)集評測,完整還原官方評測方法,雷達圖全景展示,省去逐個下載評測集和熟悉評測流程的繁雜。

  • 支持多模型多任務同時評測,評測結果圖表式對比展示,輔以單條評測結果詳情,方便全方位比較分析。

  • 評測過程公開透明,結果可復現(xiàn)。評測代碼開源在與ModelScope共建的開源代碼庫eval-scope中,方便查看細節(jié)與復現(xiàn)評測結果。

計費說明

  • PAI大模型評測依托于PAI-快速開始產(chǎn)品。快速開始本身不收費,但使用快速開始進行模型評測時,可能產(chǎn)生DLC評測任務費用,計費詳情請參見分布式訓練(DLC)計費說明

  • 如果選擇自定義數(shù)據(jù)集評測,使用OSS存儲時會產(chǎn)生相關費用,計費詳情請參見OSS計費概述

場景一:面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評測

企業(yè)通常會積累豐富的私有領域數(shù)據(jù)。如何充分利用好這部分數(shù)據(jù),是企業(yè)使用大模型進行算法優(yōu)化的關鍵。因此,企業(yè)開發(fā)者在評測開源微調(diào)后的大模型時,往往會基于私有領域下積累的自定義數(shù)據(jù)集,以便于更好地了解大模型在私有領域的效果。

對于自定義數(shù)據(jù)集評測,PAI大模型評測平臺使用NLP領域標準的文本匹配方式,計算模型輸出結果和真實結果的匹配度,值越大,模型越好。使用該評測方式,基于自己場景的獨特數(shù)據(jù),可以評測所選模型是否適合自己的場景。

以下將重點展示使用過程中的一些關鍵點,更詳細的操作細節(jié),請參見模型評測

  1. 準備自定義評測集。

    1. 自定義評測集格式說明:

      基于自定義數(shù)據(jù)集進行評測時,需要準備JSONL格式的評測集文件(示例文件:llmuses_general_qa_test.jsonl,76 KB)。格式如下:

      [{"question": "中國發(fā)明了造紙術,是否正確?", "answer": "正確"}]
      [{"question": "中國發(fā)明了火藥,是否正確?", "answer": "正確"}]

      使用question標識問題列,answer標識答案列。

    2. 上傳符合格式的評測集文件至OSS,詳情請參見上傳文件至OSS

    3. 根據(jù)OSS中評測集文件創(chuàng)建評測集。詳情請參見創(chuàng)建數(shù)據(jù)集:從阿里云云產(chǎn)品

  2. 選擇適合業(yè)務的模型。

    使用開源模型

    PAI控制臺左側導航欄快速開始頁面中,鼠標懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。

    image

    使用微調(diào)后的模型

    PAI控制臺左側導航欄快速開始頁面中,鼠標懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。對可評測的模型進行微調(diào)訓練,然后在快速開始 > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務,右上角會顯示評測按鈕。

    image

    當前模型評測功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

  3. 創(chuàng)建并運行評測任務。

    在模型詳情頁右上角單擊評測,創(chuàng)建評測任務。

    image

    關鍵參數(shù)配置如下:

    參數(shù)

    描述

    數(shù)據(jù)集

    選擇上文所創(chuàng)建的自定義數(shù)據(jù)集。

    結果輸出路徑

    指定最終評測結果保存的OSS路徑。

    資源組類型

    根據(jù)實際情況,選擇公共資源組或通用計算資源。

    任務資源

    如果資源組類型為公共資源組時,默認會根據(jù)您的模型規(guī)格推薦相應資源。

    單擊提交,任務開始運行。

  4. 查看評測結果。

    單任務結果

    快速開始 > 任務管理 > 模型評測頁面中評測任務的狀態(tài)列顯示已成功時,單擊操作列的查看報告,在自定義數(shù)據(jù)集評測結果頁面查看模型在ROUGE和BLEU系列指標上的得分。

    image

    此外還會展示評測文件每條數(shù)據(jù)的評測詳情。

    多任務對比結果

    快速開始 > 任務管理 > 模型評測頁面中選中要對比的模型評測任務,右上角單擊對比,在自定義數(shù)據(jù)集評測結果頁面查看對比結果。

    image

    評測結果解析:

    自定義數(shù)據(jù)集的默認評測指標包括:rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。

    • rouge-n類指標計算N-gram(連續(xù)的N個詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對應unigram和bigram,rouge-l指標基于最長公共子序列(LCS)。

    • bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機器翻譯質(zhì)量的指標,它通過測量機器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標計算N-gram的匹配度。

    最終評測結果會保存到之前設置的結果輸出路徑中。

場景二:面向算法研究人員的公開數(shù)據(jù)集評測

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型,或對模型進行微調(diào)后,都會參考其在權威公開數(shù)據(jù)集上的評測效果。然而,大模型時代的公開數(shù)據(jù)集種類繁多,研究人員需要花費大量時間調(diào)研選擇適合自己領域的公開數(shù)據(jù)集,并熟悉每個數(shù)據(jù)集的評測流程。為方便算法研究人員,PAI接入了多個領域的公開數(shù)據(jù)集,并完整還原了各個數(shù)據(jù)集官方指定的評測metrics,以便獲取最準確的評測效果反饋,助力更高效的大模型研究。

在公開數(shù)據(jù)集評測中,PAI大模型評測平臺通過對開源的評測數(shù)據(jù)集按領域分類,對大模型進行綜合能力評估,例如數(shù)學能力、知識能力、推理能力等,值越大,模型越好,這種評測方式也是大模型領域最常見的評測方式。

以下將重點展示使用過程中的一些關鍵點,更詳細的操作細節(jié),請參見模型評測

  1. 支持的公開數(shù)據(jù)集說明:

    目前PAI維護的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公開數(shù)據(jù)集陸續(xù)接入中。

    數(shù)據(jù)集

    大小

    數(shù)據(jù)量

    領域

    MMLU

    166 MB

    14042

    知識

    TriviaQA

    14.3 MB

    17944

    知識

    C-Eval

    1.55 MB

    12342

    中文

    CMMLU

    1.08 MB

    11582

    中文

    GSM8K

    4.17 MB

    1319

    數(shù)學

    HellaSwag

    47.5 MB

    10042

    推理

    TruthfulQA

    0.284 MB

    816

    安全性

  2. 選擇適合業(yè)務的模型。

    使用開源模型

    PAI控制臺左側導航欄快速開始頁面中,鼠標懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。

    image

    使用微調(diào)后的模型

    PAI控制臺左側導航欄快速開始頁面中,鼠標懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。對可評測的模型進行微調(diào)訓練,然后在快速開始 > 任務管理 > 訓練任務頁面中單擊已訓練成功的任務,右上角會顯示評測按鈕。

    image

    當前模型評測功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

  3. 創(chuàng)建并運行評測任務。

    在模型詳情頁右上角單擊評測,創(chuàng)建評測任務。

    image

    關鍵參數(shù)配置如下:

    參數(shù)

    描述

    數(shù)據(jù)集

    選擇公開數(shù)據(jù)集。

    結果輸出路徑

    指定最終評測結果保存的OSS路徑。

    資源組類型

    根據(jù)實際情況,選擇公共資源組或通用計算資源。

    任務資源

    如果資源組類型為公共資源組時,默認會根據(jù)您的模型規(guī)格推薦相應資源。

    單擊提交,任務開始運行。

  4. 查看評測結果。

    單任務結果

    快速開始 > 任務管理 > 模型評測頁面中評測任務的狀態(tài)列顯示已成功時,單擊操作列的查看報告,在公開數(shù)據(jù)集評測結果頁面查看模型在各領域及數(shù)據(jù)集上的得分。

    image

    多任務對比結果

    快速開始 > 任務管理 > 模型評測頁面中選中要對比的模型評測任務,右上角單擊對比,在公開數(shù)據(jù)集評測結果頁面查看對比結果。

    image

    評測結果解析:

    • 左圖展示了模型在不同領域的得分情況。每個領域可能會有多個與之相關的數(shù)據(jù)集,對屬于同一領域的數(shù)據(jù)集,PAI大模型評測平臺會把模型在這些數(shù)據(jù)集上的評測得分取均值,作為領域得分。

    • 右圖展示模型在各個公開數(shù)據(jù)集的得分情況。每個公開數(shù)據(jù)集的評測范圍詳見公開數(shù)據(jù)集說明

    最終評測結果會保存到之前設置的結果輸出路徑中。

相關文檔

模型評測