IT之家 8 月 7 日消息,Meta 公司為了緩解自然語言處理(NLP)技術(shù)依賴人類注釋評估 AI 模型的問題,最新推出了“自學(xué)評估器”(Self-Taught Evaluator),利用合成數(shù)據(jù)訓(xùn)練 AI。
NPU 技術(shù)挑戰(zhàn)
NPU 技術(shù)的發(fā)展,推動大型語言模型(LLMs)高精度地執(zhí)行復(fù)雜的語言相關(guān)任務(wù),實現(xiàn)更自然的人機交互。
不過當前 NPU 技術(shù)面臨的一個重要挑戰(zhàn),就是評估模型嚴重依賴人工注釋。
人工生成的數(shù)據(jù)對于訓(xùn)練和驗證模型至關(guān)重要,但收集這些數(shù)據(jù)既費錢又費時。而且隨著模型的改進,以前收集的注釋可能需要更新,從而降低了它們在評估新模型時的效用。
目前的模型評估方法通常涉及收集大量人類對模型響應(yīng)的偏好判斷。這些方法包括在有參考答案的任務(wù)中使用自動度量,或使用直接輸出分數(shù)的分類器。
這些方法都有局限性,尤其是在創(chuàng)意寫作或編碼等復(fù)雜場景下,可能存在多個有效回答,導(dǎo)致了人類判斷的高差異問題和高成本。
自學(xué)評估器
Meta FAIR 團隊推出了名為“自學(xué)評估器”的全新方式,不需要人工注釋,而是使用合成數(shù)據(jù)進行訓(xùn)練。
這一過程從種子模型開始,種子模型會生成對比鮮明的合成偏好對。然后,模型對這些偏好對進行評估并不斷改進,在隨后的迭代中利用其判斷來提高性能。這種方法充分利用了模型生成和評估數(shù)據(jù)的能力,大大減少了對人工注釋的依賴。
IT之家附上關(guān)鍵步驟如下:
1. 使用種子 LLM 為給定指令生成基線響應(yīng)。
2. 創(chuàng)建指令的修改版本,促使 LLM 生成質(zhì)量低于原始響應(yīng)的新響應(yīng)。
這些配對回答構(gòu)成了訓(xùn)練數(shù)據(jù)的基礎(chǔ),“自學(xué)評估器”作為 LLM-as-a-Judge,為這些配對生成推理軌跡和判斷。
通過反復(fù)該過程,模型通過自我生成和自我評估的數(shù)據(jù)不斷提高其判斷的準確性,從而有效地形成自我完善的循環(huán)。
成果
Meta FAIR 團隊在 Llama-3-70B-Instruct 模型上測試“自學(xué)評估器”,在 RewardBench 基準測試中將準確率從 75.4 提高到了 88.7,達到或超過了使用人類注釋訓(xùn)練的模型的性能,性能超過 GPT-4 等常用大語言模型評審(LLM Judges)。
這一重大改進證明了合成數(shù)據(jù)在加強模型評估方面的有效性。此外,研究人員還進行了多次迭代,進一步完善了模型的功能。
參考
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。