Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

量子位 2023/7/24 15:10:40 責編：汪淼

評論：

進入 2023 年 7 月，大語言模型（LLM）的發(fā)展進入了新階段，開源成為一個火熱的主題。

7 月 6 日，上海人工智能實驗室與商湯科技等聯(lián)合發(fā)布了書生?浦語開源體系（https://github.com/InternLM），不僅開源了書生?浦語的輕量版本（InternLM-7B），還率先開源了從數(shù)據(jù)、訓練到評測的全鏈條工具體系，并提供完全免費的商用許可；

7 月 14 日，智譜科技開放 ChatGLM2-6B 免費商用；

7 月 19 日，Meta 開源了性能更強的 Llama-2，也提供了更加寬松的商用許可。

面對語言模型的新一波開源浪潮，圖靈獎得主 Yann Lecun 在推特上評價：

This is going to change the landscape of the LLM market.

可是，開源模型的表現(xiàn)是否可以當?shù)闷饦I(yè)界的熱切期待？

我們在拿到 Llama-2 的系列開源模型后，通過 OpenCompass 對它進行了全方位的評測（https://opencompass.org.cn）。

Llama-2 有多強

Llama-2 相比 Llama-1 有不少技術(shù)層面的改進，從而帶來了模型性能、推理效率以及安全性等方面的有效提升。具體而言，重要的改進有以下幾點：

模型架構(gòu)上使用 Group-Query-Attention (GQA) 來提高模型推理效率，語境長度從 2K 增加一倍到 4K。
預訓練語料從 1.4T tokens 增加到 2T tokens。
在監(jiān)督微調(diào)（SFT）階段更加注重數(shù)據(jù)集質(zhì)量，使用更少但質(zhì)量更高的 SFT 數(shù)據(jù)相比使用百萬量級的公開 SFT 數(shù)據(jù)，效果顯著提升。
引入了三項安全訓練技術(shù) Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增，仍難媲美 ChatGPT

那么，Llama-2 的整體能力究竟如何呢？

雖然在官方技術(shù)報告中已經(jīng)展示了在 20 個左右數(shù)據(jù)集上的測試結(jié)果，但評價能力維度仍然有限，對比的模型也還不夠全面。

這里我們借助開源評測工具 OpenCompass，對 Llama-2 發(fā)布的各個模型在 40 多個評測集上進行了全方位的評測，從學科、語言、知識、理解、推理五大維度綜合衡量大模型的能力。

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

結(jié)果可以總結(jié)為以下的雷達圖：

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

下表列出 Llama、Llama-2、以及 ChatGPT 在幾個有代表性評測集上的表現(xiàn)：

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

更全面和詳細的評測結(jié)果數(shù)字請參看 https://opencompass.org.cn。

相比上代模型全面提升：

從綜合能力角度，Llama-2-70B（綠色）相比于 Llama-1-65B（紫色）更勝一籌，在語言、知識、推理、理解、學科等各個能力維度相比 Llama-1 都有明顯提升。比如綜合考試集 MMLU 上從 63.71 提升到 69.75，GSM8K 上從 54.51 提升到 63.46。

對話和基座模型基本持平：

經(jīng)過微調(diào)和對齊的模型 Llama-2-70B-Chat（黃色）相比基座模型 Llama-2-70B（綠色），綜合能力基本持平，在語言、推理和理解上相比基座有性能提升，在學科綜合能力和知識能力上略有下降。比如翻譯評測集 Flores 和代碼評測集 HumanEval 上，Chat 模型分別有超過 40% 和 20% 的相對提升，而在 MMLU 和 TrivialQA 上則有大約 10% 的相對降低。

離 ChatGPT 仍有較大差距：

相比 ChatGPT-0613（藍色），Llama-2-70B-Chat（黃色）仍需繼續(xù)追趕，尤其在推理能力、理解能力、和學科綜合能力上差距還比較明顯。其中數(shù)學評測集 MATH 和代碼評測集 HumanEval 的差距都超過了一倍。

中文能力短板明顯

在 Llama 的訓練語料中，中文占比較小，微調(diào)階段也沒有針對中文進行調(diào)優(yōu)，所以當前 Llama-2-Chat 在中文問題上仍顯不足。

一個典型的表現(xiàn)就是給定中文問題時，模型還是會以英文回答。

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

為了對 Llama-2 的中英文能力有更深入的理解，我們選取了 OpenCompass 中的中英文數(shù)據(jù)集進行分別分析。

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

結(jié)果顯示：

Llama-2 在英語語言能力、知識水平和理解能力上已經(jīng)較為接近 ChatGPT。
Llama-2 在中文能力上全方位遜色于 ChatGPT。這一結(jié)果表明，Llama-2 本身作為基座模型直接支持中文應用并不是一個特別優(yōu)秀的選擇。
推理能力上，不管中英文，Llama-2 距離 ChatGPT 仍然存在較大差距。由此可見，對于大模型來說，推理能力提升的難度比基礎語言能力提升的難度要高得多。

安全對齊讓模型過度謹慎

Llama-2 的一大特色是它在訓練過程中采用了比較完善的安全對齊方案，在價值對齊和安全性上有較大提升。

但在測試中我們也發(fā)現(xiàn)，Llama-2 的安全性和模型能力的平衡沒有做得特別好，模型非常謹小慎微，對于很多常見問題都拒絕回復。

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

國內(nèi)模型不落下風

近幾個月，國內(nèi)大模型發(fā)展迅速，多個企業(yè)和科研機構(gòu)都發(fā)布了各自的大模型，其中不乏千億參數(shù)的大模型。

那么國內(nèi)大模型和 Llama-2 相比，究竟表現(xiàn)如何呢？很多朋友都關(guān)心這個問題。

重量級模型的對比

國內(nèi)機構(gòu)發(fā)布的 70B 或者更高量級的模型普遍尚未開源，很多模型只通過內(nèi)測 API 提供有限服務，因此我們還很難獲得對很多國產(chǎn)模型的全量評測數(shù)據(jù)。

在 OpenCompass 上，由上海人工智能實驗室和商湯科技聯(lián)合多所高校發(fā)布的千億參數(shù)書生?浦語模型（InternLM-104B）已經(jīng)有了全面的評測結(jié)果。

基于這個結(jié)果，我們比較了書生?浦語和 ChatGPT 與 Llama-2 的性能：

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

在重量級模型的對比中，書生?浦語表現(xiàn)優(yōu)秀，在大部分主流評測集上領先于 Llama-2 以及 ChatGPT。具體而言，在 43 個評測集中，InternLM-104B 在 34 個評測集中超越 ChatGPT，在 41 個評測集上超越 Llama-2-70B。

中文考試大幅領先：

在中文考試評測集 CEval 和高考評測集 GAOKAO-Bench 上，InternLM-104B 都大幅超過 Llama2-70B。

語言能力略有優(yōu)勢：

在中英文的基礎語言任務上，包括字詞理解，成語習語，翻譯等評測集上，InternLM-104B 都有優(yōu)勢，其中中文評測集上差距更大。

閱讀理解“書生”名副其實：

在中英文的各類閱讀理解評測集上，InternLM-104B 均表現(xiàn)出明顯的優(yōu)勢，從文本段中總結(jié)和理解關(guān)鍵信息的能力更勝一籌。

推理能力技高一籌：

在常識推理、數(shù)學推理、綜合推理的各種數(shù)據(jù)集上，InternLM-104B 都有比較穩(wěn)定的發(fā)揮，相比 Llama2-70B 有一定優(yōu)勢。

知識問答平分秋色：

在 BoolQ，CommonSenseQA，TrivialQA，NaturalQuestion 等知識問答評測集上，兩個模型表現(xiàn)相當，可見知識水平?jīng)]有明顯差異。

代碼能力互有勝負：

InternLM-104B 和 Llama2-70B 的代碼能力不相上下，HumanEval 和 MBPP 兩個數(shù)據(jù)集上互有勝負。

輕量級模型的對比

重量級賽道上你追我趕，在 7B 量級的輕量級賽道上，開源模型的競爭也十分活躍。

在眾多國內(nèi)開源模型之中，百川智能發(fā)布的 Baichuan-7B、清華大學和智譜 AI 發(fā)布的 ChatGLM2-6B、上海人工智能實驗室發(fā)布的 InternLM-7B 等優(yōu)秀模型廣受業(yè)界關(guān)注。

我們把這些國內(nèi)模型和 Llama-2-7B 進行了全方位評測對比：

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

下表列出了這幾個 7B 量級模型在幾個有代表性評測集上的表現(xiàn)：

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

結(jié)果顯示：Llama-2 在知識能力上有明顯優(yōu)勢。

但在學科、語言、推理和理解能力上，InternLM 和 ChatGLM2 都已經(jīng)超越了 Llama-2，而且 InternLM 的領先優(yōu)勢十分明顯。

免費商用形成星火之勢

幾個月前 Llama 的開源引爆了社區(qū)，讓眾多開發(fā)者和研究者受益匪淺，衍生出整個羊駝家族，但遺憾的是其協(xié)議限制商用，將企業(yè)拒之門外。

7 月 6 日，世界人工智能大會上，書生浦語開源體系正式發(fā)布，開源了 InternLM-7B 并提供免費商用許可。

之后，ChatGLM2-6B 和 Llama2 等開源模型相繼推進免費商用，順應了發(fā)展潮流和社區(qū)呼聲。

相信開源社區(qū)的星星之火將對產(chǎn)業(yè)形成燎原之勢，進一步降低大模型落地應用的門檻。

* 本文系量子位獲授權(quán)刊載，觀點僅為作者所有。

— 完 —

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

Llama-2 有多強

相比前代性能大增，仍難媲美 ChatGPT

中文能力短板明顯

安全對齊讓模型過度謹慎

國內(nèi)模型不落下風

重量級模型的對比

輕量級模型的對比

免費商用形成星火之勢

相關(guān)文章

Llama-2 首個全方位評測，國內(nèi)外開源模型大比拼

相比前代性能大增，仍難媲美 ChatGPT