OpenAI 活動第二彈：“強化微調”打造領域專家 AI 模型，阿爾特曼稱其為今年最大驚喜

2024/12/7 7:15:37 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 12 月 7 日消息，OpenAI 啟動了為期 12 天的“shipmas”新品發(fā)布周期，將推出一系列新功能、新產品以及相關演示。本次活動第二日，OpenAI 推出了強化微調（Reinforcement Fine-Tuning），幫助開發(fā)者和機器學習工程師打造針對特定復雜領域任務的專家模型。

該項目通過全新的模型定制技術，讓開發(fā)者可以使用高質量任務集對模型進行微調，并利用參考答案評估模型的響應，從而提升模型在特定領域任務中的推理能力和準確性。

強化微調簡介

IT之家附上官方介紹：開發(fā)人員能夠使用數(shù)十到數(shù)千個高質量任務，定制 OpenAI 的模型，并使用提供的參考答案對模型的響應進行評分。官方表示這項技術強化了模型推理類似問題的方式，并提高了其在該領域特定任務上的準確性。

OpenAI 活動第二彈：“強化微調”打造領域專家 AI 模型，阿爾特曼稱其為今年最大驚喜

與標準微調不同，RFT 利用強化學習算法，可以將模型性能從高中水平提升到專家博士水平。

OpenAI 活動第二彈：“強化微調”打造領域專家 AI 模型，阿爾特曼稱其為今年最大驚喜

RFT 與監(jiān)督式微調不同，它不是讓模型模仿輸入，而是教模型以全新的方式進行推理，通過對模型答案進行評分并強化正確的推理路線，RFT 只需少量示例即可顯著提高模型性能。

RFT 支持用戶利用自己的黃金數(shù)據(jù)集創(chuàng)建獨特的模型，并將其應用于法律、金融、工程、保險等需要專業(yè)知識的領域。

強化微調面向群體

OpenAI 勵研究機構、高校和企業(yè)申請，特別是那些目前由專家領導執(zhí)行一系列狹窄復雜任務，并且將受益于人工智能協(xié)助的機構。

OpenAI 表示強化微調在結果具有客觀“正確”答案，且大多數(shù)專家會同意的任務中表現(xiàn)出色，因此認為在法律、保險、醫(yī)療、金融、工程等領域會有更好的表現(xiàn)。

參與者可提前訪問 Alpha 版強化微調 API，并在特定領域任務中進行測試，此外 OpenAI 鼓勵參與者分享數(shù)據(jù)集，共同改進 OpenAI 模型。

OpenAI 預計 2025 年初公開發(fā)布強化微調功能。

OpenAI 首席執(zhí)行官山姆?阿爾特曼（Sam Altman）表示：“強化微調，效果出奇地好；它是我 2024 年最大的驚喜之一?！?/p>

OpenAI 活動第二彈：“強化微調”打造領域專家 AI 模型，阿爾特曼稱其為今年最大驚喜

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：OpenAI，AI，微調

OpenAI 活動第二彈：“強化微調”打造領域專家 AI 模型，阿爾特曼稱其為今年最大驚喜

強化微調簡介

強化微調面向群體

相關文章

OpenAI 活動第二彈：“強化微調”打造領域專家 AI 模型，阿爾特曼稱其為今年最大驚喜