日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

多模態(tài)RLHF標(biāo)注

多模態(tài)RLHF標(biāo)注模板提供多模態(tài)RLHF標(biāo)注的功能,在對(duì)話改寫的基礎(chǔ)上,可以接入輸入機(jī)器人進(jìn)行自動(dòng)問答,也可以在手動(dòng)問答模式輸入圖片等多模態(tài)類型的內(nèi)容。

背景信息

OpenAI近期公布的文檔中,揭示了ChatGPT在對(duì)話場(chǎng)景中超越Bert等自然語(yǔ)言處理(NLP)模型的成就,其核心優(yōu)化機(jī)制是采用人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)技術(shù)。本文從模型的訓(xùn)練產(chǎn)物和目標(biāo)進(jìn)行詳細(xì)分析,幫助您深入理解RLHF技術(shù)在ChatGPT中的應(yīng)用,以及“標(biāo)注”過程的重要性。

RLHF訓(xùn)練機(jī)制包含三個(gè)主要階段:

  1. 基于GPT-3.5的微調(diào)產(chǎn)生Fine-Tuned Model(SFT),期間高質(zhì)量的提示(prompt)及其對(duì)應(yīng)答案是很重要,這些數(shù)據(jù)來源于多模型預(yù)測(cè)或人工提供,因此對(duì)標(biāo)注人員的素質(zhì)有高要求。

  2. 構(gòu)建獎(jiǎng)勵(lì)模型(Reward Model)以評(píng)估和篩選步驟1的預(yù)測(cè)結(jié)果,ChatGPT目前主要采用的是排序(Ranking)方法,并通過監(jiān)督式學(xué)習(xí)優(yōu)化(Supervised Learning with Ordered or Rankings,SLO)技術(shù)進(jìn)行,此階段所需的人工標(biāo)注形式為排序標(biāo)注,側(cè)重于排序標(biāo)注的精準(zhǔn)度與規(guī)模。

  3. 運(yùn)用近端策略優(yōu)化(PPO)進(jìn)行強(qiáng)化學(xué)習(xí),依據(jù)獎(jiǎng)勵(lì)模型輸出,此環(huán)節(jié)幾乎不涉及人工標(biāo)注。

這三個(gè)階段構(gòu)成ChatGPT的完整訓(xùn)練循環(huán),并持續(xù)迭代優(yōu)化。人工標(biāo)注在初始的微調(diào)和獎(jiǎng)勵(lì)模型構(gòu)建階段發(fā)揮了重要作用,雖需求量較預(yù)訓(xùn)練階段的小規(guī)模監(jiān)督數(shù)據(jù)為少,但其質(zhì)量和數(shù)量對(duì)模型性能影響顯著。

數(shù)據(jù)格式示例

說明

CSVXLSX格式中每一列數(shù)據(jù);Manifest格式中data字段的下一級(jí)字段均對(duì)應(yīng)一個(gè)數(shù)據(jù)集字段,字段名可自定義,在配置數(shù)據(jù)集字段名時(shí)選擇對(duì)應(yīng)的字段名即可。圖片文件支持常見的JPG、PNG等格式。

手動(dòng)輸入模式下,不需要第二列首輪問題數(shù)據(jù),僅需要topic數(shù)據(jù)。

CSVXLSX格式

topic

first-question

水果01

蘋果好吃嗎?

水果02

橘子好吃嗎?

Demo:

RLHF數(shù)據(jù)demo.csv

Manifest格式(JSONL格式)

{"data":{"topic":"水果01","first-question":"蘋果好吃嗎?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃嗎?"}}

Demo:

RLHF數(shù)據(jù)demo.manifest

配置說明

題目區(qū)(必選)

題目區(qū)用于配置話題字段。

image

單擊選中當(dāng)前話題,并選擇相應(yīng)的數(shù)據(jù)集后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:

參數(shù)

說明

標(biāo)題

默認(rèn)標(biāo)題區(qū)域無需修改。

數(shù)據(jù)集字段

在數(shù)據(jù)集字段中選擇題目展示字段。(字段名可自定義)

提示

默認(rèn)提示區(qū)域無需修改。

點(diǎn)擊鏈接跳轉(zhuǎn)

無需配置,不生效。

文本高亮

無需配置,不生效。

卡片樣式配置

無需配置,不生效。

問題區(qū)(自動(dòng)問答模式下,首輪問題必選)

問題區(qū)可以在自動(dòng)問答模式配置首輪問題和問題區(qū)域題目,手動(dòng)輸入模式配置無效。

說明

自動(dòng)問答機(jī)器人包含首輪問題組件,需要進(jìn)行配置;手動(dòng)提問不包含此組件。配置首輪問題后,還需要配置提問機(jī)器人的UDF信息。

image

單擊選中首輪問題后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:

參數(shù)

說明

標(biāo)題

默認(rèn)標(biāo)題區(qū)域無需修改。

數(shù)據(jù)集字段

配置首輪問題對(duì)應(yīng)的數(shù)據(jù)集字段。(字段名可自定義)

提示

默認(rèn)提示區(qū)域無需修改。

點(diǎn)擊鏈接跳轉(zhuǎn)

無需配置,不生效。

文本高亮

無需配置,不生效。

卡片樣式配置

無需配置,不生效。

答題區(qū)(可選)

答題區(qū)用于配置回答機(jī)器人回復(fù)文本相關(guān)問題。

image

單擊選中答題區(qū)后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:

參數(shù)

說明

標(biāo)題

可根據(jù)需要配置問題標(biāo)題。

選項(xiàng)

說明

當(dāng)答題類型為單選多選樹選擇時(shí),需要配置此參數(shù)。

  • 當(dāng)答題類型為單選多選時(shí),可以通過手工錄入數(shù)據(jù)集導(dǎo)入配置,詞典搜索暫時(shí)無法使用。

  • 當(dāng)答題類型為樹選擇時(shí),僅支持手工錄入配置。

占位文本

說明

當(dāng)答題類型為單行輸入框輸入框-Markdown預(yù)覽時(shí),需要配置此參數(shù)。

填空題占位文字,用于引導(dǎo)用戶輸入內(nèi)容。

提示

配置懸停在題目標(biāo)題上時(shí)出現(xiàn)的提示文字。

是否必填

配置題目是否為必填項(xiàng),若為必填則答題時(shí)會(huì)進(jìn)行必填校驗(yàn)。

支持搜索選項(xiàng)

說明

當(dāng)答題類型為單選多選時(shí),需要配置此參數(shù)。

配置后可以進(jìn)行選項(xiàng)的搜索。

生效階段

題目的生效階段,不選時(shí)默認(rèn)全流程生效。

全局題目(可選)

全局題目用于根據(jù)需要針對(duì)整個(gè)主題提出問題。

image

單擊選中題目后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:

參數(shù)

說明

標(biāo)題

可根據(jù)需要配置問題標(biāo)題。

占位文本

說明

當(dāng)答題類型為輸入框-Markdown預(yù)覽單行輸入框時(shí)需要配置此參數(shù)。

填空題占位文字,用于引導(dǎo)用戶輸入內(nèi)容。

選項(xiàng)

說明

當(dāng)答題類型為單選多選樹選擇多選樹選擇時(shí),需要配置此參數(shù)。

  • 當(dāng)答題類型為單選多選時(shí),可以通過手工錄入數(shù)據(jù)集導(dǎo)入配置,詞典搜索暫時(shí)無法使用。

  • 當(dāng)答題類型為樹選擇多選樹選擇時(shí),僅支持手工錄入配置。

提示

配置懸停在題目標(biāo)題上時(shí)出現(xiàn)的提示文字。

是否必填

配置題目是否為必填項(xiàng),若為必填則答題時(shí)會(huì)進(jìn)行必填校驗(yàn)。

支持搜索選項(xiàng)

說明

當(dāng)答題類型為單選多選時(shí),需要配置此參數(shù)。

配置后可以進(jìn)行選項(xiàng)的搜索。

生效階段

題目的生效階段,不選時(shí)默認(rèn)全流程生效。

全局配置

全局配置用于配置模板中會(huì)使用到的UDF。

image

單擊image,在右側(cè)配置問答機(jī)器人,回答機(jī)器人最多可以配置3個(gè)。選擇機(jī)器人的UDF之后添加配置參數(shù)即可。

說明

在自動(dòng)問答模式下,配置了首輪問題后需要配置提問機(jī)器人的UDF信息。提問機(jī)器人的UDF使用pai-qw-基于上下文生成問題,其余參數(shù)與回答機(jī)器人相同,input_dataMarkResult用于讓UDF正確接收輸入?yún)?shù),不可隨意更改;return_nums為返回個(gè)數(shù),可自行修改,最多不超過5。

操作演示

多模態(tài)RLHF標(biāo)注-自動(dòng)問答

  1. 單擊發(fā)起問答后,機(jī)器人會(huì)自動(dòng)發(fā)起問答。

  2. 用戶可對(duì)發(fā)起的問題進(jìn)行改寫,同時(shí)也可對(duì)機(jī)器人的回答進(jìn)行改寫,并完成配置好的答題。

image

多模態(tài)RLHF標(biāo)注-輸入問答

  1. 用戶可在對(duì)話框內(nèi)輸入文字,或上傳圖片、視頻、音頻等。

  2. 用戶可根據(jù)機(jī)器人的回答,對(duì)其進(jìn)行改寫并進(jìn)行答題;單擊歷史發(fā)送輸入框,可對(duì)已經(jīng)發(fā)送的post進(jìn)行修改,使機(jī)器人重新回答。

image