設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟推出 XOT 方法,提升語言模型推理能力

2023/11/15 13:33:17 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 11 月 15 日消息,微軟近日推出了名為“Everything of Thought”(XOT)的方法,靈感來自谷歌 DeepMind 的 AlphaZero,利用緊湊的神經(jīng)網(wǎng)絡(luò),來增強(qiáng) AI 模型推理能力。

微軟和佐治亞理工學(xué)院、華東師范大學(xué)合作開發(fā)了該算法,整合了強(qiáng)化學(xué)習(xí)(reinforcement learning)和蒙特卡洛樹搜索 (MCTS) 能力,在復(fù)雜決策環(huán)境中,進(jìn)一步提高解決問題的有效性。

IT之家注:微軟研究團(tuán)隊(duì)表示 XOT 方法可以讓語言模型擴(kuò)展到不熟悉的問題上,在 Game of 24、8-Puzzle 和 Pocket Cube 嚴(yán)苛測試中提升明顯。結(jié)果表明,XOT 明顯優(yōu)于其他方法,甚至解決了其他方法失敗的問題。但是,XOT 并沒有達(dá)到 100% 的可靠性。

XOT 框架包括以下關(guān)鍵步驟:

  • 預(yù)訓(xùn)練階段:MCTS 模塊在特定任務(wù)上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)有關(guān)有效思維搜索的領(lǐng)域知識。輕量級策略和價(jià)值網(wǎng)絡(luò)指導(dǎo)搜索。思想搜索: 在推理過程中,預(yù)訓(xùn)練的 MCTS 模塊使用策略 / 價(jià)值網(wǎng)絡(luò)來有效地探索和生成 LLM 的思想軌跡。

  • 思想修正:LLM 審查 MCTS 的思想并識別任何錯誤。修正的想法是通過額外的 MCTS 模擬產(chǎn)生的。

  • LLM 推理: 將修改后的想法提供給 LLM 解決問題的最終提示。

IT之家在此附上論文 [PDF] 地址,感興趣的用戶可以深入閱讀。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知