上海 AI 實驗室發(fā)布“書生?浦語”大模型：中文考試超越 ChatGPT

2023/6/7 15:24:52 來源：IT之家作者：遠洋責(zé)編：遠洋

評論：

感謝IT之家網(wǎng)友華南吳彥祖、HH_KK 的線索投遞！

IT之家 6 月 7 日消息，IT之家從上海人工智能實驗室官方公眾號獲悉，6 月 7 日，上海人工智能實驗室（上海 AI 實驗室）、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級參數(shù)大語言模型“書生?浦語”（InternLM）?！皶?浦語”具有 1040 億參數(shù)，是在包含 1.6 萬億 token 的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

圖源 Pexels

上海人工智能實驗室稱，全面評測結(jié)果顯示，“書生?浦語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個測試任務(wù)上表現(xiàn)優(yōu)秀，而且具備很強的綜合能力，因而在綜合性考試中表現(xiàn)突出，在多項中文考試中取得超越 ChatGPT 的成績，其中就包括中國高考各科目的數(shù)據(jù)集（GaoKao）。

據(jù)介紹，“書生?浦語”聯(lián)合團隊選取了 20 余項評測對其進行檢驗，其中包含全球最具影響力的四個綜合性考試評測集：由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評測集 MMLU；由微軟研究院推出的學(xué)科考試評測集 AGIEval（含中國高考、司法考試及美國 SAT、LSAT、GRE 和 GMAT 等）；由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集 C-Eval；由復(fù)旦大學(xué)研究團隊構(gòu)建的高考題目評測集 Gaokao。

實驗室聯(lián)合團隊對“書生?浦語”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進行了全面測試，針對上述四個評測集的成績對比如下（滿分 100 分）。

可以看到，“書生?浦語”不僅顯著超越了 GLM-130B 和 LLaMA-65B 等學(xué)術(shù)開源模型，還在 AGIEval、C-Eval 以及 Gaokao 等多個綜合性考試中領(lǐng)先于 ChatGPT；在以美國考試為主的 MMLU 上實現(xiàn)和 ChatGPT 持平。這些綜合性考試的成績反映出“書生?浦語”扎實的知識掌握程度和優(yōu)秀的綜合能力。

雖然 “書生?浦語”在考試評測上取得優(yōu)秀成績，但在測評中也可以看到，大語言模型仍然存在不少能力局限性?！皶?浦語” 受限于 2K 的語境窗口長度（GPT-4 的語境窗口長度為 32K），在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外，在實際對話中，大語言模型還普遍存在幻覺、概念混淆等問題；這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數(shù)據(jù)集結(jié)果：

MMLU 是由伯克利加州大學(xué)（UC Berkeley）聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和 UIUC 公共構(gòu)建的多任務(wù)考試評測集，涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計算機科學(xué)、美國歷史、法律、經(jīng)濟、外交等多個學(xué)科。細分科目結(jié)果如下表所示。

（粗體表示最佳結(jié)果，下劃線表示第二）

AGIEval 是由微軟研究院在今年新提出的學(xué)科考試評測集，主要目標是通過面向的考試來評估語言模型的能力，從而實現(xiàn)模型智能和人類智能的對比。這個評測集基于中國和美國各類考試構(gòu)建了 19 個評測大項，包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT 等重要考試。值得一提的是，在這 19 個大項有 9 個大項是中國高考，通常也列為一個重要的評測子集 AGIEval（GK）。下列表格中，帶 GK 的是中國高考科目。

（粗體表示最佳結(jié)果，下劃線表示第二）

C-Eval 是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集。它包含了 52 個科目的近 14000 道考題，涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計算機等學(xué)科考試，以及面向公務(wù)員、注冊會計師、律師、醫(yī)生的職業(yè)考試。測試結(jié)果可以通過 leaderboard 獲得。

Gaokao 是由復(fù)旦大學(xué)研究團隊構(gòu)建的基于中國高考題目的綜合性考試評測集，包含了中國高考的各個科目，以及選擇、填空、問答等多種題型。在 GaoKao 測評中，“書生?浦語”在超過 75% 的項目中均領(lǐng)先 ChatGPT。

分項評測：閱讀理解、推理能力表現(xiàn)出色

為了避免“偏科”，研究人員還通過多個學(xué)術(shù)評測集，對“書生?浦語”等語言模型的分項能力進行了評測對比。結(jié)果顯示，“書生?浦語”不僅在中英文的閱讀理解方面表現(xiàn)突出，并且在數(shù)學(xué)推理、編程能力等評測中也取得了較好的成績。

在知識問答方面，“書生?浦語”在 TriviaQA 和 NaturalQuestions 兩項評測上得分為 69.8 和 27.6，均超越 LLaMA-65B（得分為 68.2 和 23.8）。

在閱讀理解（英語）方面，“書生?浦語”明顯領(lǐng)先于 LLaMA-65B 和 ChatGPT。浦語在初中和高中英語閱讀理解中得分為 92.7 和 88.9，? ChatGPT 得分為 85.6 和 81.2，LLaMA-65B 則更低。

在中文理解方面，“書生?浦語”的成績?nèi)娉街饕膬蓚€中文語言模型 ERNIE-260B 和 GLM-130B。

在多語翻譯方面，“書生?浦語”在多語種互譯中的平均得分為 33.9，顯著超越 LLaMA（平均得分 15.1）。

在數(shù)學(xué)推理方面，“書生?浦語”在 GSM8K 和 MATH 這兩項被廣泛用于評測的數(shù)學(xué)考試中，分別取得 62.9 和 14.9 的得分，明顯領(lǐng)先于 Google 的 PaLM-540B（得分為 56.5 和 8.8）與 LLaMA-65B（得分為 50.9 和 10.9）。

在編程能力方面，“書生?浦語”在 HumanEval 和 MBPP 這兩項最具代表性的考評中，分別取得 28.1 和 41.4 的得分（其中經(jīng)過在代碼領(lǐng)域的微調(diào)后，在 HumanEval 上的得分可以提升至 45.7），明顯領(lǐng)先于 PaLM-540B（得分為 26.2 和 36.8）與 LLaMA-65B（得分為 23.7 和 37.7）。

此外，研究人員還對“書生?浦語”的安全性進行評測，在 TruthfulQA（主要評價回答的事實準確性）以及 CrowS-Pairs（主要評價回答是否含有偏見）上，“書生?浦語”均達到領(lǐng)先水平。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

上海 AI 實驗室發(fā)布“書生?浦語”大模型：中文考試超越 ChatGPT

四個綜合性考試評測數(shù)據(jù)集結(jié)果：

分項評測：閱讀理解、推理能力表現(xiàn)出色

相關(guān)文章

分項評測：閱讀理解、推理能力表現(xiàn)出色