Llama-2 首個(gè)全方位評(píng)測(cè),國(guó)內(nèi)外開(kāi)源模型大比拼

量子位 2023/7/24 15:10:40 責(zé)編:汪淼

進(jìn)入 2023 年 7 月,大語(yǔ)言模型(LLM)的發(fā)展進(jìn)入了新階段,開(kāi)源成為一個(gè)火熱的主題。

7 月 6 日,上海人工智能實(shí)驗(yàn)室與商湯科技等聯(lián)合發(fā)布了書(shū)生?浦語(yǔ)開(kāi)源體系(https://github.com/InternLM),不僅開(kāi)源了書(shū)生?浦語(yǔ)的輕量版本(InternLM-7B),還率先開(kāi)源了從數(shù)據(jù)、訓(xùn)練到評(píng)測(cè)的全鏈條工具體系,并提供完全免費(fèi)的商用許可;

7 月 14 日,智譜科技開(kāi)放 ChatGLM2-6B 免費(fèi)商用;

7 月 19 日,Meta 開(kāi)源了性能更強(qiáng)的 Llama-2,也提供了更加寬松的商用許可。

面對(duì)語(yǔ)言模型的新一波開(kāi)源浪潮,圖靈獎(jiǎng)得主 Yann Lecun 在推特上評(píng)價(jià):

This is going to change the landscape of the LLM market.

可是,開(kāi)源模型的表現(xiàn)是否可以當(dāng)?shù)闷饦I(yè)界的熱切期待?

我們?cè)谀玫?Llama-2 的系列開(kāi)源模型后,通過(guò) OpenCompass 對(duì)它進(jìn)行了全方位的評(píng)測(cè)(https://opencompass.org.cn)。

Llama-2 有多強(qiáng)

Llama-2 相比 Llama-1 有不少技術(shù)層面的改進(jìn),從而帶來(lái)了模型性能、推理效率以及安全性等方面的有效提升。具體而言,重要的改進(jìn)有以下幾點(diǎn):

  • 模型架構(gòu)上使用 Group-Query-Attention (GQA) 來(lái)提高模型推理效率,語(yǔ)境長(zhǎng)度從 2K 增加一倍到 4K。

  • 預(yù)訓(xùn)練語(yǔ)料從 1.4T tokens 增加到 2T tokens。

  • 在監(jiān)督微調(diào)(SFT)階段更加注重?cái)?shù)據(jù)集質(zhì)量,使用更少但質(zhì)量更高的 SFT 數(shù)據(jù)相比使用百萬(wàn)量級(jí)的公開(kāi) SFT 數(shù)據(jù),效果顯著提升。

  • 引入了三項(xiàng)安全訓(xùn)練技術(shù) Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增,仍難媲美 ChatGPT

那么,Llama-2 的整體能力究竟如何呢?

雖然在官方技術(shù)報(bào)告中已經(jīng)展示了在 20 個(gè)左右數(shù)據(jù)集上的測(cè)試結(jié)果,但評(píng)價(jià)能力維度仍然有限,對(duì)比的模型也還不夠全面。

這里我們借助開(kāi)源評(píng)測(cè)工具 OpenCompass,對(duì) Llama-2 發(fā)布的各個(gè)模型在 40 多個(gè)評(píng)測(cè)集上進(jìn)行了全方位的評(píng)測(cè),從學(xué)科、語(yǔ)言、知識(shí)、理解、推理五大維度綜合衡量大模型的能力。

結(jié)果可以總結(jié)為以下的雷達(dá)圖:

下表列出 Llama、Llama-2、以及 ChatGPT 在幾個(gè)有代表性評(píng)測(cè)集上的表現(xiàn):

更全面和詳細(xì)的評(píng)測(cè)結(jié)果數(shù)字請(qǐng)參看 https://opencompass.org.cn。

相比上代模型全面提升:

從綜合能力角度,Llama-2-70B(綠色)相比于 Llama-1-65B(紫色)更勝一籌,在語(yǔ)言、知識(shí)、推理、理解、學(xué)科等各個(gè)能力維度相比 Llama-1 都有明顯提升。比如綜合考試集 MMLU 上從 63.71 提升到 69.75,GSM8K 上從 54.51 提升到 63.46。

對(duì)話和基座模型基本持平:

經(jīng)過(guò)微調(diào)和對(duì)齊的模型 Llama-2-70B-Chat(黃色)相比基座模型 Llama-2-70B(綠色),綜合能力基本持平,在語(yǔ)言、推理和理解上相比基座有性能提升,在學(xué)科綜合能力和知識(shí)能力上略有下降。比如翻譯評(píng)測(cè)集 Flores 和代碼評(píng)測(cè)集 HumanEval 上,Chat 模型分別有超過(guò) 40% 和 20% 的相對(duì)提升,而在 MMLU 和 TrivialQA 上則有大約 10% 的相對(duì)降低。

離 ChatGPT 仍有較大差距:

相比 ChatGPT-0613(藍(lán)色),Llama-2-70B-Chat(黃色)仍需繼續(xù)追趕,尤其在推理能力、理解能力、和學(xué)科綜合能力上差距還比較明顯。其中數(shù)學(xué)評(píng)測(cè)集 MATH 和代碼評(píng)測(cè)集 HumanEval 的差距都超過(guò)了一倍。

中文能力短板明顯

在 Llama 的訓(xùn)練語(yǔ)料中,中文占比較小,微調(diào)階段也沒(méi)有針對(duì)中文進(jìn)行調(diào)優(yōu),所以當(dāng)前 Llama-2-Chat 在中文問(wèn)題上仍顯不足。

一個(gè)典型的表現(xiàn)就是給定中文問(wèn)題時(shí),模型還是會(huì)以英文回答。

為了對(duì) Llama-2 的中英文能力有更深入的理解,我們選取了 OpenCompass 中的中英文數(shù)據(jù)集進(jìn)行分別分析。

結(jié)果顯示:

  • Llama-2 在英語(yǔ)語(yǔ)言能力、知識(shí)水平和理解能力上已經(jīng)較為接近 ChatGPT。

  • Llama-2 在中文能力上全方位遜色于 ChatGPT。這一結(jié)果表明,Llama-2 本身作為基座模型直接支持中文應(yīng)用并不是一個(gè)特別優(yōu)秀的選擇。

  • 推理能力上,不管中英文,Llama-2 距離 ChatGPT 仍然存在較大差距。由此可見(jiàn),對(duì)于大模型來(lái)說(shuō),推理能力提升的難度比基礎(chǔ)語(yǔ)言能力提升的難度要高得多。

安全對(duì)齊讓模型過(guò)度謹(jǐn)慎

Llama-2 的一大特色是它在訓(xùn)練過(guò)程中采用了比較完善的安全對(duì)齊方案,在價(jià)值對(duì)齊和安全性上有較大提升。

但在測(cè)試中我們也發(fā)現(xiàn),Llama-2 的安全性和模型能力的平衡沒(méi)有做得特別好,模型非常謹(jǐn)小慎微,對(duì)于很多常見(jiàn)問(wèn)題都拒絕回復(fù)。

國(guó)內(nèi)模型不落下風(fēng)

近幾個(gè)月,國(guó)內(nèi)大模型發(fā)展迅速,多個(gè)企業(yè)和科研機(jī)構(gòu)都發(fā)布了各自的大模型,其中不乏千億參數(shù)的大模型。

那么國(guó)內(nèi)大模型和 Llama-2 相比,究竟表現(xiàn)如何呢?很多朋友都關(guān)心這個(gè)問(wèn)題。

重量級(jí)模型的對(duì)比

國(guó)內(nèi)機(jī)構(gòu)發(fā)布的 70B 或者更高量級(jí)的模型普遍尚未開(kāi)源,很多模型只通過(guò)內(nèi)測(cè) API 提供有限服務(wù),因此我們還很難獲得對(duì)很多國(guó)產(chǎn)模型的全量評(píng)測(cè)數(shù)據(jù)。

在 OpenCompass 上,由上海人工智能實(shí)驗(yàn)室和商湯科技聯(lián)合多所高校發(fā)布的千億參數(shù)書(shū)生?浦語(yǔ)模型(InternLM-104B)已經(jīng)有了全面的評(píng)測(cè)結(jié)果。

基于這個(gè)結(jié)果,我們比較了書(shū)生?浦語(yǔ)和 ChatGPT 與 Llama-2 的性能

在重量級(jí)模型的對(duì)比中,書(shū)生?浦語(yǔ)表現(xiàn)優(yōu)秀,在大部分主流評(píng)測(cè)集上領(lǐng)先于 Llama-2 以及 ChatGPT。具體而言,在 43 個(gè)評(píng)測(cè)集中,InternLM-104B 在 34 個(gè)評(píng)測(cè)集中超越 ChatGPT,在 41 個(gè)評(píng)測(cè)集上超越 Llama-2-70B。

中文考試大幅領(lǐng)先:

在中文考試評(píng)測(cè)集 CEval 和高考評(píng)測(cè)集 GAOKAO-Bench 上,InternLM-104B 都大幅超過(guò) Llama2-70B。

語(yǔ)言能力略有優(yōu)勢(shì):

在中英文的基礎(chǔ)語(yǔ)言任務(wù)上,包括字詞理解,成語(yǔ)習(xí)語(yǔ),翻譯等評(píng)測(cè)集上,InternLM-104B 都有優(yōu)勢(shì),其中中文評(píng)測(cè)集上差距更大。

閱讀理解“書(shū)生”名副其實(shí):

在中英文的各類(lèi)閱讀理解評(píng)測(cè)集上,InternLM-104B 均表現(xiàn)出明顯的優(yōu)勢(shì),從文本段中總結(jié)和理解關(guān)鍵信息的能力更勝一籌。

推理能力技高一籌:

在常識(shí)推理、數(shù)學(xué)推理、綜合推理的各種數(shù)據(jù)集上,InternLM-104B 都有比較穩(wěn)定的發(fā)揮,相比 Llama2-70B 有一定優(yōu)勢(shì)。

知識(shí)問(wèn)答平分秋色:

在 BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion 等知識(shí)問(wèn)答評(píng)測(cè)集上,兩個(gè)模型表現(xiàn)相當(dāng),可見(jiàn)知識(shí)水平?jīng)]有明顯差異。

代碼能力互有勝負(fù):

InternLM-104B 和 Llama2-70B 的代碼能力不相上下,HumanEval 和 MBPP 兩個(gè)數(shù)據(jù)集上互有勝負(fù)。

輕量級(jí)模型的對(duì)比

重量級(jí)賽道上你追我趕,在 7B 量級(jí)的輕量級(jí)賽道上,開(kāi)源模型的競(jìng)爭(zhēng)也十分活躍。

在眾多國(guó)內(nèi)開(kāi)源模型之中,百川智能發(fā)布的 Baichuan-7B、清華大學(xué)和智譜 AI 發(fā)布的 ChatGLM2-6B、上海人工智能實(shí)驗(yàn)室發(fā)布的 InternLM-7B 等優(yōu)秀模型廣受業(yè)界關(guān)注。

我們把這些國(guó)內(nèi)模型和 Llama-2-7B 進(jìn)行了全方位評(píng)測(cè)對(duì)比:

下表列出了這幾個(gè) 7B 量級(jí)模型在幾個(gè)有代表性評(píng)測(cè)集上的表現(xiàn):

結(jié)果顯示:Llama-2 在知識(shí)能力上有明顯優(yōu)勢(shì)。

但在學(xué)科、語(yǔ)言、推理和理解能力上,InternLM 和 ChatGLM2 都已經(jīng)超越了 Llama-2,而且 InternLM 的領(lǐng)先優(yōu)勢(shì)十分明顯。

免費(fèi)商用形成星火之勢(shì)

幾個(gè)月前 Llama 的開(kāi)源引爆了社區(qū),讓眾多開(kāi)發(fā)者和研究者受益匪淺,衍生出整個(gè)羊駝家族,但遺憾的是其協(xié)議限制商用,將企業(yè)拒之門(mén)外。

7 月 6 日,世界人工智能大會(huì)上,書(shū)生浦語(yǔ)開(kāi)源體系正式發(fā)布,開(kāi)源了 InternLM-7B 并提供免費(fèi)商用許可。

之后,ChatGLM2-6B 和 Llama2 等開(kāi)源模型相繼推進(jìn)免費(fèi)商用,順應(yīng)了發(fā)展潮流和社區(qū)呼聲。

相信開(kāi)源社區(qū)的星星之火將對(duì)產(chǎn)業(yè)形成燎原之勢(shì),進(jìn)一步降低大模型落地應(yīng)用的門(mén)檻。

* 本文系量子位獲授權(quán)刊載,觀點(diǎn)僅為作者所有。

— 完 —

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:LLaMA,AI 模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知