微軟推出 XOT 方法，提升語言模型推理能力

2023/11/15 13:33:17 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 11 月 15 日消息，微軟近日推出了名為“Everything of Thought”（XOT）的方法，靈感來自谷歌 DeepMind 的 AlphaZero，利用緊湊的神經(jīng)網(wǎng)絡(luò)，來增強 AI 模型推理能力。

微軟和佐治亞理工學(xué)院、華東師范大學(xué)合作開發(fā)了該算法，整合了強化學(xué)習(xí)（reinforcement learning）和蒙特卡洛樹搜索（MCTS）能力，在復(fù)雜決策環(huán)境中，進(jìn)一步提高解決問題的有效性。

IT之家注：微軟研究團(tuán)隊表示 XOT 方法可以讓語言模型擴(kuò)展到不熟悉的問題上，在 Game of 24、8-Puzzle 和 Pocket Cube 嚴(yán)苛測試中提升明顯。結(jié)果表明，XOT 明顯優(yōu)于其他方法，甚至解決了其他方法失敗的問題。但是，XOT 并沒有達(dá)到 100% 的可靠性。

微軟推出 XOT 方法，提升語言模型推理能力

XOT 框架包括以下關(guān)鍵步驟:

預(yù)訓(xùn)練階段：MCTS 模塊在特定任務(wù)上進(jìn)行預(yù)訓(xùn)練，以學(xué)習(xí)有關(guān)有效思維搜索的領(lǐng)域知識。輕量級策略和價值網(wǎng)絡(luò)指導(dǎo)搜索。思想搜索: 在推理過程中，預(yù)訓(xùn)練的 MCTS 模塊使用策略 / 價值網(wǎng)絡(luò)來有效地探索和生成 LLM 的思想軌跡。
思想修正：LLM 審查 MCTS 的思想并識別任何錯誤。修正的想法是通過額外的 MCTS 模擬產(chǎn)生的。
LLM 推理: 將修改后的想法提供給 LLM 解決問題的最終提示。

IT之家在此附上論文 [PDF] 地址，感興趣的用戶可以深入閱讀。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟推出 XOT 方法，提升語言模型推理能力

相關(guān)文章