首頁(yè) > 科學(xué)探索>科技前沿

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

量子位 2023/6/27 13:21:06 責(zé)編：夢(mèng)澤

評(píng)論：

大模型這么多，到底該用哪一個(gè)？并且生成結(jié)果時(shí)好時(shí)壞，怎么破。

現(xiàn)在有一種方法，一招整合各家 LLM 特長(zhǎng)，性能值拉滿！讓你不做選擇全都拿捏。

現(xiàn)在通過(guò) LLM-Blender 大模型集成框架，你輸入問(wèn)題，自動(dòng)幫你排序各家 LLM 結(jié)果，然后“融合生成”最佳答案。

就像一個(gè)水果榨汁機(jī)，各個(gè)開(kāi)源 LLM 代表不同水果，一籮筐放進(jìn)去，根據(jù)不同水果特點(diǎn)，調(diào)配比例榨出好喝的果汁。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

這個(gè)方法不僅可以有效減輕單一 LLM 中偏見(jiàn)錯(cuò)誤和不確定性信息，且輸出結(jié)果比“單用效果最好的 LLM”還要高不少。

對(duì)此網(wǎng)友驚呼：簡(jiǎn)直太贊了！

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

博采眾長(zhǎng)，一個(gè)大模型攪拌機(jī)

現(xiàn)在開(kāi)源大模型這么多，說(shuō)到性能也是千差萬(wàn)別。通常我們都會(huì)直接選擇最好的模型，來(lái) Prompt 結(jié)果。

然鵝，這種方法也有一些限制。比如我們無(wú)法考慮所有可能的模型輸出，并且新的數(shù)據(jù)可能導(dǎo)致我們選擇不同的最佳結(jié)果。

現(xiàn)在的方法，要么是直接通過(guò)打分對(duì)比輸出答案，要么也會(huì)對(duì)不同 LLM 答案進(jìn)行融合，但整個(gè)過(guò)程仍會(huì)保留有害、或不正確的信息，輸出結(jié)果相應(yīng)也會(huì)大打折扣。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

因此，為了解決這個(gè)問(wèn)題和提高 LLM 的魯棒性、泛化和準(zhǔn)確性，Allen AI 實(shí)驗(yàn)室聯(lián)合南加大和浙江大學(xué)的發(fā)表最新研究論文。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

論文提出一個(gè)用集成框架“LLM-Blender”，集合多個(gè)開(kāi)源大模型（LLM）的優(yōu)勢(shì)，通過(guò)排序和融合生成兩種方式，比較不同 LLM 生成結(jié)果，然后融合擇優(yōu)輸出。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

LLM-Blender 主要包含兩個(gè)模塊“PairRanker”和“GenFuser”。

PairRanker 模塊是一個(gè) BERT 結(jié)構(gòu)的編碼器，通過(guò)雙向注意機(jī)制捕捉輸出結(jié)果之間的細(xì)微差異，然后對(duì)候選輸出進(jìn)行排名。

PairRanker 的運(yùn)行流程是這樣的。

首先，它會(huì)收集 N 個(gè)模型對(duì)每個(gè)輸入的輸出，并創(chuàng)建所有可能的輸出對(duì)。

然后，使用特殊的編碼器來(lái)比較這些輸出對(duì)，以確定哪個(gè)候選輸出更好，捕捉到微小的差異。

在推理階段，計(jì)算一個(gè)矩陣，其中包含了所有輸出對(duì)的比較結(jié)果。再根據(jù)矩陣確定給定輸入的所有輸出排名順序。

最后，選擇每個(gè)輸入中排名最高的候選輸出作為最終結(jié)果。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

GenFuser 模塊則是一個(gè)基于 Transformer 的編碼器-解碼器結(jié)構(gòu)，使用單個(gè)編碼器對(duì)輸入文本和一些候選者進(jìn)行編碼，然后使用單個(gè)解碼器解碼融合的輸出。

值得注意的是，它只將排名靠前的輸出結(jié)果放入編碼器，這樣既避免了“噪音”感染，還能提升輸出結(jié)果質(zhì)量。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

總結(jié)一下，LLM-Blender 的運(yùn)轉(zhuǎn)流程：

PairRanker 比較 N 個(gè) LLM 的輸出，然后通過(guò) GenFuser 將它們?nèi)诤?，從排名?N 的輸出中生成最佳結(jié)果。

按照論文解釋?zhuān)ㄟ^(guò)這個(gè)運(yùn)作流程，就能有效篩選并集合生成優(yōu)質(zhì)答案。

那么到底效果如何，下面是團(tuán)隊(duì)的評(píng)估過(guò)程。

集成 LLM 結(jié)果優(yōu)于單個(gè) LLM

為了保證可以在大量數(shù)據(jù)基礎(chǔ)上進(jìn)行評(píng)估，團(tuán)隊(duì)專(zhuān)門(mén)引入基準(zhǔn)數(shù)據(jù)集 MixInstruct，用于在指令跟隨任務(wù)中對(duì) LLM 的集成模型進(jìn)行基準(zhǔn)測(cè)試。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

團(tuán)隊(duì)對(duì)數(shù)據(jù)集中的 10 萬(wàn)個(gè)樣本進(jìn)行訓(xùn)練，5000 個(gè)用于驗(yàn)證，5000 個(gè)用于測(cè)試。然后，在這 11 萬(wàn)個(gè)示例上測(cè)試 11 個(gè)當(dāng)下熱門(mén)的開(kāi)源大模型，比如 Vicuna、OpenAssistant、Alpaca、MPT 等。

根據(jù)對(duì)多個(gè) LLM 模型在 MixInstruct 數(shù)據(jù)集上的表現(xiàn)，可以看到不同模型在表現(xiàn)上存在顯著差異，各有優(yōu)劣。其中，Open Assistant、Vicuna 和 Alpaca 是表現(xiàn)最好三個(gè)模型，而 Mosaic MPT、StableLM 和 Flan-T5 排名則較低。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

其次，實(shí)驗(yàn)還得出部分優(yōu)秀的模型表現(xiàn)并不穩(wěn)定，許多其他模型的表現(xiàn)都優(yōu)于它們。

例如，Koala 的平均 GPT-Rank 為 6.76，但大約 40% 的測(cè)試結(jié)果表明 Koala 產(chǎn)生了更好或同樣優(yōu)于 Open Assistant 和 Vicuna 的結(jié)果。

另外也可以看到，在排名工具這部分，與 BARTScore 和 GPT-Rank 的最佳模型 (Open Assistant) 相比，PairRanker 表現(xiàn)出更好的性能。

并且團(tuán)隊(duì)表示，使用從 PairRanker 中選出的前三名，并將其作為 GenFuser 的候選。在此基礎(chǔ)上，LLM-Blender 展示了預(yù)期的卓越性能。尤其是在 GPT-Rank 方面，達(dá)到了 3.01，明顯超過(guò)了最佳模型 Open Assistant 的（3.90）。

在 BERTScore（79.09）、BARTScore（-3.02）和 BELURT（-0.17）三個(gè)排名里得分也都不錯(cuò)。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

實(shí)驗(yàn)證明，通過(guò)將 LLM-Blender 框架進(jìn)行排名和融合，顯著提高了 LLM 最終輸出結(jié)果的質(zhì)量。

團(tuán)隊(duì)提出 LLM-Blender 一個(gè)創(chuàng)新的集成框架，通過(guò)排名的方式來(lái)減少單個(gè) LLM 的弱點(diǎn)，并通過(guò)融合生成來(lái)整合優(yōu)勢(shì)，來(lái)提高 LLM 的能力，可以說(shuō)非常新穎。

不過(guò)該方法仍有一些可以優(yōu)化的地方，比如引入更多的語(yǔ)言模型、使用不同的相似度計(jì)算方法等。

研究團(tuán)隊(duì)

論文由 Allen AI 實(shí)驗(yàn)室聯(lián)合南加大和浙江大學(xué)一同發(fā)表，三位作者都來(lái)自中國(guó)，且都與南加大（USC）有關(guān)聯(lián)。

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

姜東甫（Dongfu Jiang）是浙江大學(xué)計(jì)算機(jī)工程專(zhuān)業(yè)大四學(xué)生，即將去加拿大滑鐵盧大學(xué)讀 PhD，此前曾在南加大（USC）做過(guò)研究實(shí)習(xí)生，當(dāng)時(shí)的導(dǎo)師正好是另外兩名作者。

任翔（Xiang Ren）是南加大計(jì)算機(jī)科學(xué)系副教授和 INK 實(shí)驗(yàn)室主任，在艾倫人工智能研究所研究機(jī)器常識(shí)，也是谷歌學(xué)者。

林禹臣（Bill Yuchen Lin）是現(xiàn)任艾倫人工智能研究所青年研究員，本科在上海交大讀計(jì)算機(jī)，PhD 在南加大也是計(jì)算機(jī)相關(guān)專(zhuān)業(yè)。

此外，南加大 NK 實(shí)驗(yàn)室、艾倫人工智能研究所的 Mosaic 團(tuán)隊(duì)的學(xué)者也參與了這一項(xiàng)目。

論文傳送門(mén)：

https://arxiv.org/abs/2306.02561

參考鏈接：

[1]https://yuchenlin.xyz/LLM-Blender/#bg
[2]https://twitter.com/billyuchenlin/status/1668666357058277377

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：尚恩

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

博采眾長(zhǎng)，一個(gè)大模型攪拌機(jī)

集成 LLM 結(jié)果優(yōu)于單個(gè) LLM

研究團(tuán)隊(duì)

相關(guān)文章

大模型攪拌機(jī)來(lái)了，把 11 個(gè) AI 的結(jié)果融合輸出，艾倫研究所團(tuán)隊(duì)出品

博采眾長(zhǎng)，一個(gè)大模型攪拌機(jī)