設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta 推出“自學(xué)評估器”:無需人工注釋改善評估,性能超 GPT-4 等常用 AI 大語言模型評審

2024/8/7 15:56:11 來源:IT之家 作者:故淵 責編:故淵

IT之家 8 月 7 日消息,Meta 公司為了緩解自然語言處理(NLP)技術(shù)依賴人類注釋評估 AI 模型的問題,最新推出了“自學(xué)評估器”(Self-Taught Evaluator),利用合成數(shù)據(jù)訓(xùn)練 AI。

NPU 技術(shù)挑戰(zhàn)

NPU 技術(shù)的發(fā)展,推動大型語言模型(LLMs)高精度地執(zhí)行復(fù)雜的語言相關(guān)任務(wù),實現(xiàn)更自然的人機交互。

不過當前 NPU 技術(shù)面臨的一個重要挑戰(zhàn),就是評估模型嚴重依賴人工注釋。

人工生成的數(shù)據(jù)對于訓(xùn)練和驗證模型至關(guān)重要,但收集這些數(shù)據(jù)既費錢又費時。而且隨著模型的改進,以前收集的注釋可能需要更新,從而降低了它們在評估新模型時的效用。

目前的模型評估方法通常涉及收集大量人類對模型響應(yīng)的偏好判斷。這些方法包括在有參考答案的任務(wù)中使用自動度量,或使用直接輸出分數(shù)的分類器。

這些方法都有局限性,尤其是在創(chuàng)意寫作或編碼等復(fù)雜場景下,可能存在多個有效回答,導(dǎo)致了人類判斷的高差異問題和高成本。

自學(xué)評估器

Meta FAIR 團隊推出了名為“自學(xué)評估器”的全新方式,不需要人工注釋,而是使用合成數(shù)據(jù)進行訓(xùn)練。

這一過程從種子模型開始,種子模型會生成對比鮮明的合成偏好對。然后,模型對這些偏好對進行評估并不斷改進,在隨后的迭代中利用其判斷來提高性能。這種方法充分利用了模型生成和評估數(shù)據(jù)的能力,大大減少了對人工注釋的依賴。

IT之家附上關(guān)鍵步驟如下:

1. 使用種子 LLM 為給定指令生成基線響應(yīng)。

2. 創(chuàng)建指令的修改版本,促使 LLM 生成質(zhì)量低于原始響應(yīng)的新響應(yīng)。

這些配對回答構(gòu)成了訓(xùn)練數(shù)據(jù)的基礎(chǔ),“自學(xué)評估器”作為 LLM-as-a-Judge,為這些配對生成推理軌跡和判斷。

通過反復(fù)該過程,模型通過自我生成和自我評估的數(shù)據(jù)不斷提高其判斷的準確性,從而有效地形成自我完善的循環(huán)。

成果

Meta FAIR 團隊在 Llama-3-70B-Instruct 模型上測試“自學(xué)評估器”,在 RewardBench 基準測試中將準確率從 75.4 提高到了 88.7,達到或超過了使用人類注釋訓(xùn)練的模型的性能,性能超過 GPT-4 等常用大語言模型評審(LLM Judges)。

這一重大改進證明了合成數(shù)據(jù)在加強模型評估方面的有效性。此外,研究人員還進行了多次迭代,進一步完善了模型的功能。

參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:MetaAI,模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知