設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenAI 活動第二彈:“強化微調”打造領域專家 AI 模型,阿爾特曼稱其為今年最大驚喜

2024/12/7 7:15:37 來源:IT之家 作者:故淵 責編:故淵

IT之家 12 月 7 日消息,OpenAI 啟動了為期 12 天的“shipmas”新品發(fā)布周期,將推出一系列新功能、新產品以及相關演示。本次活動第二日,OpenAI 推出了強化微調(Reinforcement Fine-Tuning),幫助開發(fā)者和機器學習工程師打造針對特定復雜領域任務的專家模型。

該項目通過全新的模型定制技術,讓開發(fā)者可以使用高質量任務集對模型進行微調,并利用參考答案評估模型的響應,從而提升模型在特定領域任務中的推理能力和準確性。

強化微調簡介

IT之家附上官方介紹:開發(fā)人員能夠使用數(shù)十到數(shù)千個高質量任務,定制 OpenAI 的模型,并使用提供的參考答案對模型的響應進行評分。官方表示這項技術強化了模型推理類似問題的方式,并提高了其在該領域特定任務上的準確性。

與標準微調不同,RFT 利用強化學習算法,可以將模型性能從高中水平提升到專家博士水平。

RFT 與監(jiān)督式微調不同,它不是讓模型模仿輸入,而是教模型以全新的方式進行推理,通過對模型答案進行評分并強化正確的推理路線,RFT 只需少量示例即可顯著提高模型性能。

RFT 支持用戶利用自己的黃金數(shù)據(jù)集創(chuàng)建獨特的模型,并將其應用于法律、金融、工程、保險等需要專業(yè)知識的領域。

強化微調面向群體

OpenAI 勵研究機構、高校和企業(yè)申請,特別是那些目前由專家領導執(zhí)行一系列狹窄復雜任務,并且將受益于人工智能協(xié)助的機構。

OpenAI 表示強化微調在結果具有客觀“正確”答案,且大多數(shù)專家會同意的任務中表現(xiàn)出色,因此認為在法律、保險、醫(yī)療、金融、工程等領域會有更好的表現(xiàn)。

參與者可提前訪問 Alpha 版強化微調 API,并在特定領域任務中進行測試,此外 OpenAI 鼓勵參與者分享數(shù)據(jù)集,共同改進 OpenAI 模型。

OpenAI 預計 2025 年初公開發(fā)布強化微調功能。

OpenAI 首席執(zhí)行官山姆?阿爾特曼(Sam Altman)表示:“強化微調,效果出奇地好;它是我 2024 年最大的驚喜之一?!?/p>

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:OpenAI,AI微調

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知