通義千問、GPT-4o 等七款 AI 大模型“高考成績”公布：前三名文科過一本，理科過二本

2024/7/18 14:56:18 來源：IT之家作者：清源責編：清源

評論：

感謝IT之家網友佳宜的線索投遞！

IT之家 7 月 18 日消息，上海人工智能實驗室 17 日公布了針對 7 個 AI 大模型的高考全科目測試結果，據大模型開源開放評測體系“司南”相關負責人介紹，“當前大模型仍存在很大的局限性。組織 AI 大模型‘參加高考’，目的是評測當前大模型的真實水平，找準問題，持續(xù)推進技術進步?！?/p>

測試結果顯示，書生?浦語 2.0 系列文曲星大模型（浦語文曲星）、阿里通義千問大模型 Qwen2-72B 以及 GPT-4o 再次包攬文、理科前三甲；前三名 AI“考生”的文、理科成績分別超過了“一本”“二本”線（以今年高考人數最多的河南省的分數線為參考）。

通義千問、GPT-4o 等七款 AI 大模型“高考成績”公布：前三名文科過一本，理科過二本

從官方提供的圖片來看，此次參與“高考”的大模型還包括來自零一萬物的 Yi-1.5-34B、來自通義千問的 Qwen2-57B、來自智譜的 GLM-4-9B 和法國 AI 初創(chuàng)公司 Mistral 旗下的 Mixtral 8×22B。

據介紹，此次評測具備如下特征：

全卷考試：進行全卷評分，而不只針對單一題型，且包括帶圖的高考題
考前開源：評測覆蓋的開源模型均為今年高考前開源的模型，排除泄題的可能性
老師打分：邀請有高考閱卷經驗的老師打分，確保評分和高考盡量一致
完全公開：生成答案的代碼、模型答卷、評分結果完全開源

在增加綜合科目的基礎上，Qwen2-72B、GPT-4o、浦語文曲星包攬文、理科前三甲。阿里通義千問大模型 Qwen2-72B 以 546 分的成績榮獲 AI 高考“文科狀元”，浦語文曲星則以 468.5 分成為理科第一名，分別超過了“非開源國際插班生”GPT-4o（文科 531 分，理科 467 分）。同為國外機構發(fā)布的 Mixtral 8x22B 平均得分最少，弱于國內大模型的高考表現。

通義千問、GPT-4o 等七款 AI 大模型“高考成績”公布：前三名文科過一本，理科過二本

閱卷老師們一致認為，大模型與真人考生仍存在差距，雖然對于基礎知識的掌握表現出色，但在邏輯推理和知識靈活應用方面，大模型仍然差強人意。具體而言，在作答主觀題時，大模型往往無法完整理解題干，不明白代詞指向，結果導致答非所問；解答數學題時，解題過程機械且邏輯性差，對于幾何題，常出現與空間邏輯相違背的推斷；對物理、化學實驗理解膚淺，無法準確識別并運用實驗器材。

此外，大模型也會偽造虛構內容，編造看似合理但實際不存在的詩句，或在存在明顯計算錯誤的情況下之后不反思，“硬著頭皮蒙”一個答案，均給閱卷老師帶來了困擾。

據IT之家此前報道，根據上海人工智能實驗室上個月公布的 AI 高考全卷結果，Qwen2-72B、GPT-4o 及書生?浦語 2.0 文曲星（InternLM2-20B-WQX）成為本次大模型高考的前三甲，得分率均超過 70%。大部分模型“考生”語文、英語科目表現良好，但數學方面仍有很大提升空間。

公開評測細節(jié)：點此前往

相關閱讀：

《上海人工智能實驗室發(fā)布首個 AI 高考評測結果：語數英總分最高 303 分，數學全部不及格》

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：高考，人工智能，大模型

通義千問、GPT-4o 等七款 AI 大模型“高考成績”公布 ：前三名文科過一本，理科過二本

相關文章

通義千問、GPT-4o 等七款 AI 大模型“高考成績”公布：前三名文科過一本，理科過二本