騰訊攜手創(chuàng)新“無(wú)監(jiān)督前綴微調(diào)”技術(shù):訓(xùn)練 tokens 最多減少 95%,提升 AI 推理效率

2025/3/2 15:07:16 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 3 月 2 日消息,科技媒體 marktechpost 昨日(3 月 1 日)發(fā)布博文,報(bào)道稱(chēng)騰訊 AI Lab 攜手香港中文大學(xué),提出名為“無(wú)監(jiān)督前綴微調(diào)”(UPFT)的創(chuàng)新方法,顯著提升了大型語(yǔ)言模型的推理效率。

該方法無(wú)需處理完整的推理過(guò)程,只需關(guān)注模型輸出的前 8 至 32 個(gè)詞元(token),即可有效改進(jìn)模型的推理能力。UPFT 抓住了不同推理路徑中共同的關(guān)鍵早期步驟,在降低計(jì)算開(kāi)銷(xiāo)的同時(shí),實(shí)現(xiàn)了推理性能的提升。

大型語(yǔ)言模型在語(yǔ)言理解和生成方面表現(xiàn)出色,但提升其推理能力仍然是一項(xiàng)挑戰(zhàn)。傳統(tǒng)微調(diào)方法依賴(lài)大量標(biāo)注數(shù)據(jù)或復(fù)雜的拒絕采樣,資源消耗巨大。UPFT 則另辟蹊徑,通過(guò)聚焦模型輸出的初始 tokens,解決了效率和對(duì)昂貴監(jiān)督的依賴(lài)問(wèn)題。

研究發(fā)現(xiàn),針對(duì)同一問(wèn)題,模型生成的各種推理路徑的初始步驟往往高度相似,UPFT 正是基于這種“前綴自洽性”,無(wú)需完整推理軌跡或大量標(biāo)注數(shù)據(jù),僅使用這些初始標(biāo)記進(jìn)行訓(xùn)練。

UPFT 采用貝葉斯推理原理,將正確推理的概率分解為“覆蓋率”和“準(zhǔn)確性”兩部分。通過(guò)訓(xùn)練早期 tokens,UPFT 在探索多樣化推理路徑的同時(shí),確保了結(jié)果的可靠性。實(shí)驗(yàn)表明,UPFT 可將訓(xùn)練中處理的 tokens 數(shù)量減少高達(dá) 95%,并顯著降低時(shí)間和內(nèi)存需求。

UPFT 在 GSM8K、MATH500、AIME2024 和 GPQA 等推理基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。例如,在 Qwen2.5-Math-7B-Instruct 模型上,UPFT 在減少訓(xùn)練和推理 tokens 的同時(shí),提升了平均準(zhǔn)確率。在復(fù)雜推理任務(wù)中,UPFT 的性能提升尤為顯著,表明早期推理步驟包含解決問(wèn)題的關(guān)鍵信息。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:騰訊 AI Lab,UPFTAI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知