IT之家 12 月 7 日消息,OpenAI 啟動了為期 12 天的“shipmas”新品發(fā)布周期,將推出一系列新功能、新產品以及相關演示。本次活動第二日,OpenAI 推出了強化微調(Reinforcement Fine-Tuning),幫助開發(fā)者和機器學習工程師打造針對特定復雜領域任務的專家模型。
該項目通過全新的模型定制技術,讓開發(fā)者可以使用高質量任務集對模型進行微調,并利用參考答案評估模型的響應,從而提升模型在特定領域任務中的推理能力和準確性。
強化微調簡介
IT之家附上官方介紹:開發(fā)人員能夠使用數(shù)十到數(shù)千個高質量任務,定制 OpenAI 的模型,并使用提供的參考答案對模型的響應進行評分。官方表示這項技術強化了模型推理類似問題的方式,并提高了其在該領域特定任務上的準確性。
與標準微調不同,RFT 利用強化學習算法,可以將模型性能從高中水平提升到專家博士水平。
RFT 與監(jiān)督式微調不同,它不是讓模型模仿輸入,而是教模型以全新的方式進行推理,通過對模型答案進行評分并強化正確的推理路線,RFT 只需少量示例即可顯著提高模型性能。
RFT 支持用戶利用自己的黃金數(shù)據(jù)集創(chuàng)建獨特的模型,并將其應用于法律、金融、工程、保險等需要專業(yè)知識的領域。
強化微調面向群體
OpenAI 勵研究機構、高校和企業(yè)申請,特別是那些目前由專家領導執(zhí)行一系列狹窄復雜任務,并且將受益于人工智能協(xié)助的機構。
OpenAI 表示強化微調在結果具有客觀“正確”答案,且大多數(shù)專家會同意的任務中表現(xiàn)出色,因此認為在法律、保險、醫(yī)療、金融、工程等領域會有更好的表現(xiàn)。
參與者可提前訪問 Alpha 版強化微調 API,并在特定領域任務中進行測試,此外 OpenAI 鼓勵參與者分享數(shù)據(jù)集,共同改進 OpenAI 模型。
OpenAI 預計 2025 年初公開發(fā)布強化微調功能。
OpenAI 首席執(zhí)行官山姆?阿爾特曼(Sam Altman)表示:“強化微調,效果出奇地好;它是我 2024 年最大的驚喜之一?!?/p>
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。