中美 AI 挑戰(zhàn)東京大學(xué)入學(xué)考試：雙雙合格，英語(yǔ)優(yōu)異，數(shù)學(xué)欠佳

2025/4/7 11:53:05 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 4 月 7 日消息，據(jù)日經(jīng)新聞 4 月 5 日?qǐng)?bào)道，日本經(jīng)濟(jì)新聞與民間企業(yè)、大型補(bǔ)習(xí)班的聯(lián)合研究發(fā)現(xiàn)，中美兩國(guó)新型生成式 AI 已具備通過(guò)日本最難關(guān)東京大學(xué)理科 3 類入學(xué)考試的“學(xué)力”。兩個(gè)模型在考察語(yǔ)言能力的英語(yǔ)中取得高分，但在數(shù)學(xué)中多次出現(xiàn)論證錯(cuò)誤等問(wèn)題。

此次測(cè)試讓美國(guó) OpenAI 的“o1”和中國(guó) AI 初創(chuàng)公司 DeepSeek 的“R1”兩個(gè)基礎(chǔ)模型解答 2025 年度的東大入學(xué)考試題。AI 初創(chuàng)公司 Life Prompt（東京?新宿）輸出了答案，并由大型預(yù)備學(xué)校河合塾的講師進(jìn)行評(píng)分。

大學(xué)入學(xué)共通考試和二次考試合計(jì)的理科得分（IT之家注：滿分 550 分）中，o1 獲得了 374 分，R1 獲得了 369 分，兩者均超過(guò)了東大在 3 月 10 日公布的理科 3 類合格最低分?jǐn)?shù)線（368.7 分）。

R1 在理科 1 類和理科 2 類的共通考試中未達(dá)到合格最低分?jǐn)?shù)線，但在其他科類中，與 o1 一起包括文科在內(nèi)都“合格”了。

在二次考試中，得分率較高的是英語(yǔ)，o1 和 R1 的得分率均超過(guò)了 75%。河合塾負(fù)責(zé)英語(yǔ)的久恒秀雄講師表示：“幾乎沒(méi)有單詞和語(yǔ)法的錯(cuò)誤，遠(yuǎn)遠(yuǎn)超過(guò)了東大考生的平均水平。”

數(shù)學(xué)方面，雖然最終答案正確的問(wèn)題較多，但在圖形和論證問(wèn)題上多次出現(xiàn)論述錯(cuò)誤和說(shuō)明不足的情況。理科數(shù)學(xué)中，o1 在 120 分滿分中得了 38 分，R1 得了 49 分。負(fù)責(zé)數(shù)學(xué)的香坂季京講師指出：“這比合格者的平均分要低很多?！?/p>

自 2011 年開(kāi)始的“機(jī)器人能否進(jìn)入東京大學(xué)（東 Robo）”項(xiàng)目的負(fù)責(zé)人、國(guó)立信息學(xué)研究所的新井紀(jì)子教授對(duì)此次考試結(jié)果評(píng)價(jià)道：“這是 AI 成長(zhǎng)的一個(gè)重要里程碑。不過(guò)，AI 有時(shí)會(huì)給出相當(dāng)糟糕的答案，需要能夠正確判斷并熟練使用 AI 輸出的人才?！?/p>

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

中美 AI 挑戰(zhàn)東京大學(xué)入學(xué)考試：雙雙合格，英語(yǔ)優(yōu)異，數(shù)學(xué)欠佳

相關(guān)文章