大模型這么多,到底該用哪一個(gè)?并且生成結(jié)果時(shí)好時(shí)壞,怎么破。
現(xiàn)在有一種方法,一招整合各家 LLM 特長(zhǎng),性能值拉滿!讓你不做選擇全都拿捏。
現(xiàn)在通過(guò) LLM-Blender 大模型集成框架,你輸入問(wèn)題,自動(dòng)幫你排序各家 LLM 結(jié)果,然后“融合生成”最佳答案。
就像一個(gè)水果榨汁機(jī),各個(gè)開(kāi)源 LLM 代表不同水果,一籮筐放進(jìn)去,根據(jù)不同水果特點(diǎn),調(diào)配比例榨出好喝的果汁。
這個(gè)方法不僅可以有效減輕單一 LLM 中偏見(jiàn)錯(cuò)誤和不確定性信息,且輸出結(jié)果比“單用效果最好的 LLM”還要高不少。
對(duì)此網(wǎng)友驚呼:簡(jiǎn)直太贊了!
博采眾長(zhǎng),一個(gè)大模型攪拌機(jī)
現(xiàn)在開(kāi)源大模型這么多,說(shuō)到性能也是千差萬(wàn)別。通常我們都會(huì)直接選擇最好的模型,來(lái) Prompt 結(jié)果。
然鵝,這種方法也有一些限制。比如我們無(wú)法考慮所有可能的模型輸出,并且新的數(shù)據(jù)可能導(dǎo)致我們選擇不同的最佳結(jié)果。
現(xiàn)在的方法,要么是直接通過(guò)打分對(duì)比輸出答案,要么也會(huì)對(duì)不同 LLM 答案進(jìn)行融合,但整個(gè)過(guò)程仍會(huì)保留有害、或不正確的信息,輸出結(jié)果相應(yīng)也會(huì)大打折扣。
因此,為了解決這個(gè)問(wèn)題和提高 LLM 的魯棒性、泛化和準(zhǔn)確性,Allen AI 實(shí)驗(yàn)室聯(lián)合南加大和浙江大學(xué)的發(fā)表最新研究論文。
論文提出一個(gè)用集成框架“LLM-Blender”,集合多個(gè)開(kāi)源大模型(LLM)的優(yōu)勢(shì),通過(guò)排序和融合生成兩種方式,比較不同 LLM 生成結(jié)果,然后融合擇優(yōu)輸出。
LLM-Blender 主要包含兩個(gè)模塊“PairRanker”和“GenFuser”。
PairRanker 模塊是一個(gè) BERT 結(jié)構(gòu)的編碼器,通過(guò)雙向注意機(jī)制捕捉輸出結(jié)果之間的細(xì)微差異,然后對(duì)候選輸出進(jìn)行排名。
PairRanker 的運(yùn)行流程是這樣的。
首先,它會(huì)收集 N 個(gè)模型對(duì)每個(gè)輸入的輸出,并創(chuàng)建所有可能的輸出對(duì)。
然后,使用特殊的編碼器來(lái)比較這些輸出對(duì),以確定哪個(gè)候選輸出更好,捕捉到微小的差異。
在推理階段,計(jì)算一個(gè)矩陣,其中包含了所有輸出對(duì)的比較結(jié)果。再根據(jù)矩陣確定給定輸入的所有輸出排名順序。
最后,選擇每個(gè)輸入中排名最高的候選輸出作為最終結(jié)果。
GenFuser 模塊則是一個(gè)基于 Transformer 的編碼器-解碼器結(jié)構(gòu),使用單個(gè)編碼器對(duì)輸入文本和一些候選者進(jìn)行編碼,然后使用單個(gè)解碼器解碼融合的輸出。
值得注意的是,它只將排名靠前的輸出結(jié)果放入編碼器,這樣既避免了“噪音”感染,還能提升輸出結(jié)果質(zhì)量。
總結(jié)一下,LLM-Blender 的運(yùn)轉(zhuǎn)流程:
PairRanker 比較 N 個(gè) LLM 的輸出,然后通過(guò) GenFuser 將它們?nèi)诤?,從排名?N 的輸出中生成最佳結(jié)果。
按照論文解釋?zhuān)ㄟ^(guò)這個(gè)運(yùn)作流程,就能有效篩選并集合生成優(yōu)質(zhì)答案。
那么到底效果如何,下面是團(tuán)隊(duì)的評(píng)估過(guò)程。
集成 LLM 結(jié)果優(yōu)于單個(gè) LLM
為了保證可以在大量數(shù)據(jù)基礎(chǔ)上進(jìn)行評(píng)估,團(tuán)隊(duì)專(zhuān)門(mén)引入基準(zhǔn)數(shù)據(jù)集 MixInstruct,用于在指令跟隨任務(wù)中對(duì) LLM 的集成模型進(jìn)行基準(zhǔn)測(cè)試。
團(tuán)隊(duì)對(duì)數(shù)據(jù)集中的 10 萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練,5000 個(gè)用于驗(yàn)證,5000 個(gè)用于測(cè)試。然后,在這 11 萬(wàn)個(gè)示例上測(cè)試 11 個(gè)當(dāng)下熱門(mén)的開(kāi)源大模型,比如 Vicuna、OpenAssistant、Alpaca、MPT 等。
根據(jù)對(duì)多個(gè) LLM 模型在 MixInstruct 數(shù)據(jù)集上的表現(xiàn),可以看到不同模型在表現(xiàn)上存在顯著差異,各有優(yōu)劣。其中,Open Assistant、Vicuna 和 Alpaca 是表現(xiàn)最好三個(gè)模型,而 Mosaic MPT、StableLM 和 Flan-T5 排名則較低。
其次,實(shí)驗(yàn)還得出部分優(yōu)秀的模型表現(xiàn)并不穩(wěn)定,許多其他模型的表現(xiàn)都優(yōu)于它們。
例如,Koala 的平均 GPT-Rank 為 6.76,但大約 40% 的測(cè)試結(jié)果表明 Koala 產(chǎn)生了更好或同樣優(yōu)于 Open Assistant 和 Vicuna 的結(jié)果。
另外也可以看到,在排名工具這部分,與 BARTScore 和 GPT-Rank 的最佳模型 (Open Assistant) 相比,PairRanker 表現(xiàn)出更好的性能。
并且團(tuán)隊(duì)表示,使用從 PairRanker 中選出的前三名,并將其作為 GenFuser 的候選。在此基礎(chǔ)上,LLM-Blender 展示了預(yù)期的卓越性能。尤其是在 GPT-Rank 方面,達(dá)到了 3.01,明顯超過(guò)了最佳模型 Open Assistant 的(3.90)。
在 BERTScore(79.09)、BARTScore(-3.02)和 BELURT(-0.17)三個(gè)排名里得分也都不錯(cuò)。
實(shí)驗(yàn)證明,通過(guò)將 LLM-Blender 框架進(jìn)行排名和融合,顯著提高了 LLM 最終輸出結(jié)果的質(zhì)量。
團(tuán)隊(duì)提出 LLM-Blender 一個(gè)創(chuàng)新的集成框架,通過(guò)排名的方式來(lái)減少單個(gè) LLM 的弱點(diǎn),并通過(guò)融合生成來(lái)整合優(yōu)勢(shì),來(lái)提高 LLM 的能力,可以說(shuō)非常新穎。
不過(guò)該方法仍有一些可以優(yōu)化的地方,比如引入更多的語(yǔ)言模型、使用不同的相似度計(jì)算方法等。
研究團(tuán)隊(duì)
論文由 Allen AI 實(shí)驗(yàn)室聯(lián)合南加大和浙江大學(xué)一同發(fā)表,三位作者都來(lái)自中國(guó),且都與南加大(USC)有關(guān)聯(lián)。
姜東甫(Dongfu Jiang)是浙江大學(xué)計(jì)算機(jī)工程專(zhuān)業(yè)大四學(xué)生,即將去加拿大滑鐵盧大學(xué)讀 PhD,此前曾在南加大(USC)做過(guò)研究實(shí)習(xí)生,當(dāng)時(shí)的導(dǎo)師正好是另外兩名作者。
任翔(Xiang Ren)是南加大計(jì)算機(jī)科學(xué)系副教授和 INK 實(shí)驗(yàn)室主任,在艾倫人工智能研究所研究機(jī)器常識(shí),也是谷歌學(xué)者。
林禹臣(Bill Yuchen Lin)是現(xiàn)任艾倫人工智能研究所青年研究員,本科在上海交大讀計(jì)算機(jī),PhD 在南加大也是計(jì)算機(jī)相關(guān)專(zhuān)業(yè)。
此外,南加大 NK 實(shí)驗(yàn)室、艾倫人工智能研究所的 Mosaic 團(tuán)隊(duì)的學(xué)者也參與了這一項(xiàng)目。
論文傳送門(mén):
https://arxiv.org/abs/2306.02561
參考鏈接:
[1]https://yuchenlin.xyz/LLM-Blender/#bg
[2]https://twitter.com/billyuchenlin/status/1668666357058277377
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:尚恩
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。