外國(guó)高三學(xué)生創(chuàng)建 AI 評(píng)測(cè)網(wǎng)站：讓模型在《我的世界》里“一決高下”

2025/3/22 15:26:55 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 3 月 22 日消息，由于傳統(tǒng) AI 基準(zhǔn)測(cè)試方法難以全面評(píng)估模型能力，AI 開(kāi)發(fā)者正嘗試更具創(chuàng)意的測(cè)試方式，其中一種測(cè)試手段，則是微軟沙盒建造游戲《我的世界》。

據(jù)外媒 TechCrunch 報(bào)道，名為阿迪?辛格（Adi Singh）的高三學(xué)生創(chuàng)建了專門(mén)為 AI 評(píng)測(cè)而開(kāi)發(fā)的網(wǎng)站 Minecraft Benchmark（簡(jiǎn)稱 MC-Bench），讓 AI 模型在《我的世界》中同臺(tái)競(jìng)技，基于相同的提示生成建筑作品。用戶可以為自己認(rèn)為更出色的作品投票，而投票結(jié)束后才會(huì)顯示具體是哪款 AI 生成了哪些作品。

其認(rèn)為選擇《我的世界》的意義并不在于游戲本身，而在于它的知名度。即便沒(méi)玩過(guò)這款游戲，人們依然能分辨哪個(gè)方塊狀的菠蘿更逼真?！啊段业氖澜纭纺茏?AI 發(fā)展的進(jìn)步更加直觀，大家對(duì)《我的世界》的風(fēng)格和視覺(jué)效果都很熟悉?！?/p>

目前，MC-Bench 的志愿貢獻(xiàn)者共有 8 人。IT之家從 MC-Bench 網(wǎng)站的信息獲悉，Anthropic、谷歌、OpenAI 和阿里巴巴為該項(xiàng)目提供了 AI 計(jì)算資源支持，但并未直接參與開(kāi)發(fā)。

“目前，我們的測(cè)試仍然較為基礎(chǔ)，主要用于觀察 AI 從 GPT-3 時(shí)代至今的進(jìn)步。但未來(lái)，我們或許會(huì)拓展到更復(fù)雜的目標(biāo)導(dǎo)向任務(wù)和長(zhǎng)期規(guī)劃能力評(píng)估，游戲或許是測(cè)試 AI 智能體推理能力的一種理想方式 —— 相比現(xiàn)實(shí)世界，它更安全，也更可控?！?/p>

外國(guó)高三學(xué)生創(chuàng)建 AI 評(píng)測(cè)網(wǎng)站：讓模型在《我的世界》里“一決高下”

嚴(yán)格來(lái)說(shuō)，MC-Bench 仍屬于編程基準(zhǔn)測(cè)試，因?yàn)?AI 需要編寫(xiě)代碼來(lái)生成建筑，例如“霜雪人”或“熱帶風(fēng)情的海濱小屋”。

相較于分析代碼，大多數(shù)用戶更容易通過(guò)作品本身來(lái)評(píng)判 AI 的表現(xiàn)。至于這些測(cè)試結(jié)果是否能真正衡量 AI 的實(shí)際應(yīng)用價(jià)值，仍有待商榷。但辛格認(rèn)為，這些數(shù)據(jù)仍然具備重要參考意義?！癕C-Bench 當(dāng)前的排行榜與我的實(shí)際使用體驗(yàn)高度吻合，而這在許多傳統(tǒng)文本基準(zhǔn)測(cè)試中并不常見(jiàn)?；蛟S，它能幫助 AI 開(kāi)發(fā)者判斷自己是否走在正確的方向上?！?/p>

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

外國(guó)高三學(xué)生創(chuàng)建 AI 評(píng)測(cè)網(wǎng)站：讓模型在《我的世界》里“一決高下”

相關(guān)文章