大模型這么多,到底該用哪一個?并且生成結果時好時壞,怎么破。
現(xiàn)在有一種方法,一招整合各家 LLM 特長,性能值拉滿!讓你不做選擇全都拿捏。
現(xiàn)在通過 LLM-Blender 大模型集成框架,你輸入問題,自動幫你排序各家 LLM 結果,然后“融合生成”最佳答案。
就像一個水果榨汁機,各個開源 LLM 代表不同水果,一籮筐放進去,根據(jù)不同水果特點,調(diào)配比例榨出好喝的果汁。
這個方法不僅可以有效減輕單一 LLM 中偏見錯誤和不確定性信息,且輸出結果比“單用效果最好的 LLM”還要高不少。
對此網(wǎng)友驚呼:簡直太贊了!
博采眾長,一個大模型攪拌機
現(xiàn)在開源大模型這么多,說到性能也是千差萬別。通常我們都會直接選擇最好的模型,來 Prompt 結果。
然鵝,這種方法也有一些限制。比如我們無法考慮所有可能的模型輸出,并且新的數(shù)據(jù)可能導致我們選擇不同的最佳結果。
現(xiàn)在的方法,要么是直接通過打分對比輸出答案,要么也會對不同 LLM 答案進行融合,但整個過程仍會保留有害、或不正確的信息,輸出結果相應也會大打折扣。
因此,為了解決這個問題和提高 LLM 的魯棒性、泛化和準確性,Allen AI 實驗室聯(lián)合南加大和浙江大學的發(fā)表最新研究論文。
論文提出一個用集成框架“LLM-Blender”,集合多個開源大模型(LLM)的優(yōu)勢,通過排序和融合生成兩種方式,比較不同 LLM 生成結果,然后融合擇優(yōu)輸出。
LLM-Blender 主要包含兩個模塊“PairRanker”和“GenFuser”。
PairRanker 模塊是一個 BERT 結構的編碼器,通過雙向注意機制捕捉輸出結果之間的細微差異,然后對候選輸出進行排名。
PairRanker 的運行流程是這樣的。
首先,它會收集 N 個模型對每個輸入的輸出,并創(chuàng)建所有可能的輸出對。
然后,使用特殊的編碼器來比較這些輸出對,以確定哪個候選輸出更好,捕捉到微小的差異。
在推理階段,計算一個矩陣,其中包含了所有輸出對的比較結果。再根據(jù)矩陣確定給定輸入的所有輸出排名順序。
最后,選擇每個輸入中排名最高的候選輸出作為最終結果。
GenFuser 模塊則是一個基于 Transformer 的編碼器-解碼器結構,使用單個編碼器對輸入文本和一些候選者進行編碼,然后使用單個解碼器解碼融合的輸出。
值得注意的是,它只將排名靠前的輸出結果放入編碼器,這樣既避免了“噪音”感染,還能提升輸出結果質(zhì)量。
總結一下,LLM-Blender 的運轉流程:
PairRanker 比較 N 個 LLM 的輸出,然后通過 GenFuser 將它們?nèi)诤希瑥呐琶?N 的輸出中生成最佳結果。
按照論文解釋,通過這個運作流程,就能有效篩選并集合生成優(yōu)質(zhì)答案。
那么到底效果如何,下面是團隊的評估過程。
集成 LLM 結果優(yōu)于單個 LLM
為了保證可以在大量數(shù)據(jù)基礎上進行評估,團隊專門引入基準數(shù)據(jù)集 MixInstruct,用于在指令跟隨任務中對 LLM 的集成模型進行基準測試。
團隊對數(shù)據(jù)集中的 10 萬個樣本進行訓練,5000 個用于驗證,5000 個用于測試。然后,在這 11 萬個示例上測試 11 個當下熱門的開源大模型,比如 Vicuna、OpenAssistant、Alpaca、MPT 等。
根據(jù)對多個 LLM 模型在 MixInstruct 數(shù)據(jù)集上的表現(xiàn),可以看到不同模型在表現(xiàn)上存在顯著差異,各有優(yōu)劣。其中,Open Assistant、Vicuna 和 Alpaca 是表現(xiàn)最好三個模型,而 Mosaic MPT、StableLM 和 Flan-T5 排名則較低。
其次,實驗還得出部分優(yōu)秀的模型表現(xiàn)并不穩(wěn)定,許多其他模型的表現(xiàn)都優(yōu)于它們。
例如,Koala 的平均 GPT-Rank 為 6.76,但大約 40% 的測試結果表明 Koala 產(chǎn)生了更好或同樣優(yōu)于 Open Assistant 和 Vicuna 的結果。
另外也可以看到,在排名工具這部分,與 BARTScore 和 GPT-Rank 的最佳模型 (Open Assistant) 相比,PairRanker 表現(xiàn)出更好的性能。
并且團隊表示,使用從 PairRanker 中選出的前三名,并將其作為 GenFuser 的候選。在此基礎上,LLM-Blender 展示了預期的卓越性能。尤其是在 GPT-Rank 方面,達到了 3.01,明顯超過了最佳模型 Open Assistant 的(3.90)。
在 BERTScore(79.09)、BARTScore(-3.02)和 BELURT(-0.17)三個排名里得分也都不錯。
實驗證明,通過將 LLM-Blender 框架進行排名和融合,顯著提高了 LLM 最終輸出結果的質(zhì)量。
團隊提出 LLM-Blender 一個創(chuàng)新的集成框架,通過排名的方式來減少單個 LLM 的弱點,并通過融合生成來整合優(yōu)勢,來提高 LLM 的能力,可以說非常新穎。
不過該方法仍有一些可以優(yōu)化的地方,比如引入更多的語言模型、使用不同的相似度計算方法等。
研究團隊
論文由 Allen AI 實驗室聯(lián)合南加大和浙江大學一同發(fā)表,三位作者都來自中國,且都與南加大(USC)有關聯(lián)。
姜東甫(Dongfu Jiang)是浙江大學計算機工程專業(yè)大四學生,即將去加拿大滑鐵盧大學讀 PhD,此前曾在南加大(USC)做過研究實習生,當時的導師正好是另外兩名作者。
任翔(Xiang Ren)是南加大計算機科學系副教授和 INK 實驗室主任,在艾倫人工智能研究所研究機器常識,也是谷歌學者。
林禹臣(Bill Yuchen Lin)是現(xiàn)任艾倫人工智能研究所青年研究員,本科在上海交大讀計算機,PhD 在南加大也是計算機相關專業(yè)。
此外,南加大 NK 實驗室、艾倫人工智能研究所的 Mosaic 團隊的學者也參與了這一項目。
論文傳送門:
https://arxiv.org/abs/2306.02561
參考鏈接:
[1]https://yuchenlin.xyz/LLM-Blender/#bg
[2]https://twitter.com/billyuchenlin/status/1668666357058277377
本文來自微信公眾號:量子位 (ID:QbitAI),作者:尚恩
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。