設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

大模型攪拌機來了,把 11 個 AI 的結果融合輸出,艾倫研究所團隊出品

量子位 2023/6/27 13:21:06 責編:夢澤

大模型這么多,到底該用哪一個?并且生成結果時好時壞,怎么破。

現(xiàn)在有一種方法,一招整合各家 LLM 特長,性能值拉滿!讓你不做選擇全都拿捏。

現(xiàn)在通過 LLM-Blender 大模型集成框架,你輸入問題,自動幫你排序各家 LLM 結果,然后“融合生成”最佳答案。

就像一個水果榨汁機,各個開源 LLM 代表不同水果,一籮筐放進去,根據(jù)不同水果特點,調(diào)配比例榨出好喝的果汁。

這個方法不僅可以有效減輕單一 LLM 中偏見錯誤和不確定性信息,且輸出結果比“單用效果最好的 LLM”還要高不少。

對此網(wǎng)友驚呼:簡直太贊了!

博采眾長,一個大模型攪拌機

現(xiàn)在開源大模型這么多,說到性能也是千差萬別。通常我們都會直接選擇最好的模型,來 Prompt 結果。

然鵝,這種方法也有一些限制。比如我們無法考慮所有可能的模型輸出,并且新的數(shù)據(jù)可能導致我們選擇不同的最佳結果。

現(xiàn)在的方法,要么是直接通過打分對比輸出答案,要么也會對不同 LLM 答案進行融合,但整個過程仍會保留有害、或不正確的信息,輸出結果相應也會大打折扣。

因此,為了解決這個問題和提高 LLM 的魯棒性、泛化和準確性,Allen AI 實驗室聯(lián)合南加大和浙江大學的發(fā)表最新研究論文。

論文提出一個用集成框架“LLM-Blender”,集合多個開源大模型(LLM)的優(yōu)勢,通過排序和融合生成兩種方式,比較不同 LLM 生成結果,然后融合擇優(yōu)輸出。

LLM-Blender 主要包含兩個模塊“PairRanker”和“GenFuser”。

PairRanker 模塊是一個 BERT 結構的編碼器,通過雙向注意機制捕捉輸出結果之間的細微差異,然后對候選輸出進行排名。

PairRanker 的運行流程是這樣的。

首先,它會收集 N 個模型對每個輸入的輸出,并創(chuàng)建所有可能的輸出對。

然后,使用特殊的編碼器來比較這些輸出對,以確定哪個候選輸出更好,捕捉到微小的差異。

在推理階段,計算一個矩陣,其中包含了所有輸出對的比較結果。再根據(jù)矩陣確定給定輸入的所有輸出排名順序。

最后,選擇每個輸入中排名最高的候選輸出作為最終結果。

GenFuser 模塊則是一個基于 Transformer 的編碼器-解碼器結構,使用單個編碼器對輸入文本和一些候選者進行編碼,然后使用單個解碼器解碼融合的輸出。

值得注意的是,它只將排名靠前的輸出結果放入編碼器,這樣既避免了“噪音”感染,還能提升輸出結果質(zhì)量。

總結一下,LLM-Blender 的運轉流程:

PairRanker 比較 N 個 LLM 的輸出,然后通過 GenFuser 將它們?nèi)诤希瑥呐琶?N 的輸出中生成最佳結果。

按照論文解釋,通過這個運作流程,就能有效篩選并集合生成優(yōu)質(zhì)答案。

那么到底效果如何,下面是團隊的評估過程。

集成 LLM 結果優(yōu)于單個 LLM

為了保證可以在大量數(shù)據(jù)基礎上進行評估,團隊專門引入基準數(shù)據(jù)集 MixInstruct,用于在指令跟隨任務中對 LLM 的集成模型進行基準測試。

團隊對數(shù)據(jù)集中的 10 萬個樣本進行訓練,5000 個用于驗證,5000 個用于測試。然后,在這 11 萬個示例上測試 11 個當下熱門的開源大模型,比如 Vicuna、OpenAssistant、Alpaca、MPT 等。

根據(jù)對多個 LLM 模型在 MixInstruct 數(shù)據(jù)集上的表現(xiàn),可以看到不同模型在表現(xiàn)上存在顯著差異,各有優(yōu)劣。其中,Open Assistant、Vicuna 和 Alpaca 是表現(xiàn)最好三個模型,而 Mosaic MPT、StableLM 和 Flan-T5 排名則較低。

其次,實驗還得出部分優(yōu)秀的模型表現(xiàn)并不穩(wěn)定,許多其他模型的表現(xiàn)都優(yōu)于它們。

例如,Koala 的平均 GPT-Rank 為 6.76,但大約 40% 的測試結果表明 Koala 產(chǎn)生了更好或同樣優(yōu)于 Open Assistant 和 Vicuna 的結果。

另外也可以看到,在排名工具這部分,與 BARTScore 和 GPT-Rank 的最佳模型 (Open Assistant) 相比,PairRanker 表現(xiàn)出更好的性能。

并且團隊表示,使用從 PairRanker 中選出的前三名,并將其作為 GenFuser 的候選。在此基礎上,LLM-Blender 展示了預期的卓越性能。尤其是在 GPT-Rank 方面,達到了 3.01,明顯超過了最佳模型 Open Assistant 的(3.90)。

在 BERTScore(79.09)、BARTScore(-3.02)和 BELURT(-0.17)三個排名里得分也都不錯。

實驗證明,通過將 LLM-Blender 框架進行排名和融合,顯著提高了 LLM 最終輸出結果的質(zhì)量。

團隊提出 LLM-Blender 一個創(chuàng)新的集成框架,通過排名的方式來減少單個 LLM 的弱點,并通過融合生成來整合優(yōu)勢,來提高 LLM 的能力,可以說非常新穎。

不過該方法仍有一些可以優(yōu)化的地方,比如引入更多的語言模型、使用不同的相似度計算方法等。

研究團隊

論文由 Allen AI 實驗室聯(lián)合南加大和浙江大學一同發(fā)表,三位作者都來自中國,且都與南加大(USC)有關聯(lián)。

姜東甫(Dongfu Jiang)是浙江大學計算機工程專業(yè)大四學生,即將去加拿大滑鐵盧大學讀 PhD,此前曾在南加大(USC)做過研究實習生,當時的導師正好是另外兩名作者。

任翔(Xiang Ren)是南加大計算機科學系副教授和 INK 實驗室主任,在艾倫人工智能研究所研究機器常識,也是谷歌學者。

林禹臣(Bill Yuchen Lin)是現(xiàn)任艾倫人工智能研究所青年研究員,本科在上海交大讀計算機,PhD 在南加大也是計算機相關專業(yè)。

此外,南加大 NK 實驗室、艾倫人工智能研究所的 Mosaic 團隊的學者也參與了這一項目。

論文傳送門:

https://arxiv.org/abs/2306.02561

參考鏈接:

  • [1]https://yuchenlin.xyz/LLM-Blender/#bg

  • [2]https://twitter.com/billyuchenlin/status/1668666357058277377

本文來自微信公眾號:量子位 (ID:QbitAI),作者:尚恩

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:人工智能,大模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知