多模態(tài)RLHF標(biāo)注
多模態(tài)RLHF標(biāo)注模板提供多模態(tài)RLHF標(biāo)注的功能,在對(duì)話改寫的基礎(chǔ)上,可以接入輸入機(jī)器人進(jìn)行自動(dòng)問答,也可以在手動(dòng)問答模式輸入圖片等多模態(tài)類型的內(nèi)容。
背景信息
OpenAI近期公布的文檔中,揭示了ChatGPT在對(duì)話場(chǎng)景中超越Bert等自然語(yǔ)言處理(NLP)模型的成就,其核心優(yōu)化機(jī)制是采用人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)技術(shù)。本文從模型的訓(xùn)練產(chǎn)物和目標(biāo)進(jìn)行詳細(xì)分析,幫助您深入理解RLHF技術(shù)在ChatGPT中的應(yīng)用,以及“標(biāo)注”過程的重要性。
RLHF訓(xùn)練機(jī)制包含三個(gè)主要階段:
基于GPT-3.5的微調(diào)產(chǎn)生Fine-Tuned Model(SFT),期間高質(zhì)量的提示(prompt)及其對(duì)應(yīng)答案是很重要,這些數(shù)據(jù)來源于多模型預(yù)測(cè)或人工提供,因此對(duì)標(biāo)注人員的素質(zhì)有高要求。
構(gòu)建獎(jiǎng)勵(lì)模型(Reward Model)以評(píng)估和篩選步驟1的預(yù)測(cè)結(jié)果,ChatGPT目前主要采用的是排序(Ranking)方法,并通過監(jiān)督式學(xué)習(xí)優(yōu)化(Supervised Learning with Ordered or Rankings,SLO)技術(shù)進(jìn)行,此階段所需的人工標(biāo)注形式為排序標(biāo)注,側(cè)重于排序標(biāo)注的精準(zhǔn)度與規(guī)模。
運(yùn)用近端策略優(yōu)化(PPO)進(jìn)行強(qiáng)化學(xué)習(xí),依據(jù)獎(jiǎng)勵(lì)模型輸出,此環(huán)節(jié)幾乎不涉及人工標(biāo)注。
這三個(gè)階段構(gòu)成ChatGPT的完整訓(xùn)練循環(huán),并持續(xù)迭代優(yōu)化。人工標(biāo)注在初始的微調(diào)和獎(jiǎng)勵(lì)模型構(gòu)建階段發(fā)揮了重要作用,雖需求量較預(yù)訓(xùn)練階段的小規(guī)模監(jiān)督數(shù)據(jù)為少,但其質(zhì)量和數(shù)量對(duì)模型性能影響顯著。
數(shù)據(jù)格式示例
CSV及XLSX格式中每一列數(shù)據(jù);Manifest格式中data字段的下一級(jí)字段均對(duì)應(yīng)一個(gè)數(shù)據(jù)集字段,字段名可自定義,在配置數(shù)據(jù)集字段名時(shí)選擇對(duì)應(yīng)的字段名即可。圖片文件支持常見的JPG、PNG等格式。
手動(dòng)輸入模式下,不需要第二列首輪問題數(shù)據(jù),僅需要topic數(shù)據(jù)。
CSV及XLSX格式
topic | first-question |
水果01 | 蘋果好吃嗎? |
水果02 | 橘子好吃嗎? |
Demo:
Manifest格式(JSONL格式)
{"data":{"topic":"水果01","first-question":"蘋果好吃嗎?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃嗎?"}}
Demo:
配置說明
題目區(qū)(必選)
題目區(qū)用于配置話題字段。
單擊選中當(dāng)前話題,并選擇相應(yīng)的數(shù)據(jù)集后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:
參數(shù) | 說明 |
標(biāo)題 | 默認(rèn)標(biāo)題區(qū)域無需修改。 |
數(shù)據(jù)集字段 | 在數(shù)據(jù)集字段中選擇題目展示字段。(字段名可自定義) |
提示 | 默認(rèn)提示區(qū)域無需修改。 |
點(diǎn)擊鏈接跳轉(zhuǎn) | 無需配置,不生效。 |
文本高亮 | 無需配置,不生效。 |
卡片樣式配置 | 無需配置,不生效。 |
問題區(qū)(自動(dòng)問答模式下,首輪問題必選)
問題區(qū)可以在自動(dòng)問答模式配置首輪問題和問題區(qū)域題目,手動(dòng)輸入模式配置無效。
自動(dòng)問答機(jī)器人包含首輪問題組件,需要進(jìn)行配置;手動(dòng)提問不包含此組件。配置首輪問題后,還需要配置提問機(jī)器人的UDF信息。
單擊選中首輪問題后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:
參數(shù) | 說明 |
標(biāo)題 | 默認(rèn)標(biāo)題區(qū)域無需修改。 |
數(shù)據(jù)集字段 | 配置首輪問題對(duì)應(yīng)的數(shù)據(jù)集字段。(字段名可自定義) |
提示 | 默認(rèn)提示區(qū)域無需修改。 |
點(diǎn)擊鏈接跳轉(zhuǎn) | 無需配置,不生效。 |
文本高亮 | 無需配置,不生效。 |
卡片樣式配置 | 無需配置,不生效。 |
答題區(qū)(可選)
答題區(qū)用于配置回答機(jī)器人回復(fù)文本相關(guān)問題。
單擊選中答題區(qū)后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:
參數(shù) | 說明 |
標(biāo)題 | 可根據(jù)需要配置問題標(biāo)題。 |
選項(xiàng) 說明 當(dāng)答題類型為單選、多選或樹選擇時(shí),需要配置此參數(shù)。 |
|
占位文本 說明 當(dāng)答題類型為單行輸入框或輸入框-Markdown預(yù)覽時(shí),需要配置此參數(shù)。 | 填空題占位文字,用于引導(dǎo)用戶輸入內(nèi)容。 |
提示 | 配置懸停在題目標(biāo)題上時(shí)出現(xiàn)的提示文字。 |
是否必填 | 配置題目是否為必填項(xiàng),若為必填則答題時(shí)會(huì)進(jìn)行必填校驗(yàn)。 |
支持搜索選項(xiàng) 說明 當(dāng)答題類型為單選或多選時(shí),需要配置此參數(shù)。 | 配置后可以進(jìn)行選項(xiàng)的搜索。 |
生效階段 | 題目的生效階段,不選時(shí)默認(rèn)全流程生效。 |
全局題目(可選)
全局題目用于根據(jù)需要針對(duì)整個(gè)主題提出問題。
單擊選中題目后,在右側(cè)配置區(qū)域配置具體參數(shù)。參數(shù)說明如下:
參數(shù) | 說明 |
標(biāo)題 | 可根據(jù)需要配置問題標(biāo)題。 |
占位文本 說明 當(dāng)答題類型為輸入框-Markdown預(yù)覽或單行輸入框時(shí)需要配置此參數(shù)。 | 填空題占位文字,用于引導(dǎo)用戶輸入內(nèi)容。 |
選項(xiàng) 說明 當(dāng)答題類型為單選、多選、樹選擇或多選樹選擇時(shí),需要配置此參數(shù)。 |
|
提示 | 配置懸停在題目標(biāo)題上時(shí)出現(xiàn)的提示文字。 |
是否必填 | 配置題目是否為必填項(xiàng),若為必填則答題時(shí)會(huì)進(jìn)行必填校驗(yàn)。 |
支持搜索選項(xiàng) 說明 當(dāng)答題類型為單選或多選時(shí),需要配置此參數(shù)。 | 配置后可以進(jìn)行選項(xiàng)的搜索。 |
生效階段 | 題目的生效階段,不選時(shí)默認(rèn)全流程生效。 |
全局配置
全局配置用于配置模板中會(huì)使用到的UDF。
單擊,在右側(cè)配置問答機(jī)器人,回答機(jī)器人最多可以配置3個(gè)。選擇機(jī)器人的UDF之后添加配置參數(shù)即可。
在自動(dòng)問答模式下,配置了首輪問題后需要配置提問機(jī)器人的UDF信息。提問機(jī)器人的UDF使用pai-qw-基于上下文生成問題,其余參數(shù)與回答機(jī)器人相同,input_data及MarkResult用于讓UDF正確接收輸入?yún)?shù),不可隨意更改;return_nums為返回個(gè)數(shù),可自行修改,最多不超過5。
操作演示
多模態(tài)RLHF標(biāo)注-自動(dòng)問答
單擊發(fā)起問答后,機(jī)器人會(huì)自動(dòng)發(fā)起問答。
用戶可對(duì)發(fā)起的問題進(jìn)行改寫,同時(shí)也可對(duì)機(jī)器人的回答進(jìn)行改寫,并完成配置好的答題。
多模態(tài)RLHF標(biāo)注-輸入問答
用戶可在對(duì)話框內(nèi)輸入文字,或上傳圖片、視頻、音頻等。
用戶可根據(jù)機(jī)器人的回答,對(duì)其進(jìn)行改寫并進(jìn)行答題;單擊歷史發(fā)送輸入框,可對(duì)已經(jīng)發(fā)送的post進(jìn)行修改,使機(jī)器人重新回答。