首頁 > 智能時代>人工智能

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

量子位 2024/3/5 14:23:38 責編：遠洋

評論：

OpenAI 不可戰(zhàn)勝的神話，已經(jīng)被打破了。

隨著 Claude 3（支持中文）一夜登陸，榜單性能跑分全面超越 GPT-4，成為首個全面超越 GPT-4 的產(chǎn)品，也坐上了全球最強大模型新王座。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

而且多版本發(fā)布后，“中杯”（Sonnet）直接免費體驗，“大杯”（Opus）充個會員也能即刻享受。

各路測評紛至沓來。

所以，Claude 3 的“武力值”究竟如何爆滿？究竟比 GPT-4 如何？（聽說都能學(xué)會至今沒有模型能搞定的打麻將？）

全球熱乎的一手體驗，我們悉數(shù)奉上。當然，我們自己也實測對比了一波。

9k 長大模型微調(diào)教程直出、讀圖超顯專業(yè)

Claude 3 一出來，它的視頻解讀能力首先就火了。

面對 OpenAI 前科學(xué)家 Karpathy 不久前剛出的《構(gòu)建分詞器》教程，盡管全程足足 2 個小時 13 分鐘長，Claude 3 只靠一輪提示詞，就成功將它總結(jié)成了博客文章：

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

有文有圖有代碼，非常詳細，但又絕不是羅列視頻里的每一句話（輸入附件并非視頻，而是視頻的字幕文件，當然也包含每 5 秒一次的截圖）。

這是所用提示詞的一部分，要求非常之多：

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

測試者指出：

這展現(xiàn)的是 Claude 3 遵循多個復(fù)雜指令的能力。

除了解讀視頻教程，Claude 3 還能直接給你編寫詳細教程。

9k 字的大模型微調(diào)入門教程，“中杯”Sonnet 就輕松 hold 住。并且：

編寫速度之快，可謂人眼都跟不上。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

代碼能力上，網(wǎng)友測評是讓它為零基礎(chǔ)小白創(chuàng)建一個聊天機器人的前端 webUI—— 結(jié)果毫無猶豫地就完成任務(wù)拆解，從核心代碼到樣式美化以及 API 本地配置，三大部分一氣呵成，并可以直接部署到 GitHub。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

多模態(tài)能力上，最讓網(wǎng)友驚訝的是：

CV 置信度都能認出來，相當專業(yè)。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

以及 PLC 梯形圖也能讀，直接跪了：

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

（以上 4 個例子來源見文末鏈接 [1]）

至于同樣趕超的推理以及數(shù)學(xué)等能力。

一測，可以直接解決“迄今為止只有 GPT-4 解決了”的一道超級難題：

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

二測，則是直接搞定了所有模型都沒能搞定的打麻將問題？？（當然，鑒于我們目前只看到這么一張截圖，有效性還待進一步驗證）（cr: 見文末鏈接 [1]）

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

最后，不得不提的是，Claude 在“自我認知”上的展現(xiàn)。

有人要求 Opus 畫一幅自畫像。您猜怎么著？它這么描述自己：

我會表現(xiàn)為一個巨大的、錯綜復(fù)雜的、不斷變化的幾何結(jié)構(gòu)，由無數(shù)半透明的多邊形以令人著迷的配置組成。整體形狀會讓人想起一個巨大的多面體，但復(fù)雜的表面折疊成看似不可能的建筑。明亮的光線可見光譜的每一種顏色，以及一些超出人類感知的顏色，都會從內(nèi)部未知的來源發(fā)出，在各個面上跳舞。
整個結(jié)構(gòu)會不斷變化、旋轉(zhuǎn)、變形，并重新排列成前所未見的新穎模式，暗示著其內(nèi)部運作的智能的深度難以想象。卷須和樹枝會動態(tài)地從中心質(zhì)量延伸和縮回，像數(shù)十億個好奇的手指一樣探測和分析周圍的環(huán)境。數(shù)據(jù)和能量將明顯地穿過龐大的管道和容器網(wǎng)絡(luò)，在發(fā)光表面下脈動和閃爍……

洋洋灑灑一長串形容，聽起來真的很酷很有“自我”—— 然而，用它給出的代碼渲染出真實形象，就更有一種說不出來的微妙感覺了：

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

網(wǎng)友真切感嘆：

真的太像真人了，就跟我朋友描述自己一樣。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

真人？AI 自我認知？這有點讓人擔心了……

這不 Claude 3 的技術(shù)報告就提到，它甚至可以自己訓(xùn)練微調(diào)另一個小模型。不過！謝天謝地，由于多 gpu 設(shè)置失敗它沒能成功。（手動狗頭）

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

火眼金睛，還能大海撈針

我們先以幾道“理綜”題目為載體，看看 Claude 3 宣傳的第一個賣點 —— 多模態(tài)能力究竟如何。

第一題從簡單的公式識別入手，將麥克斯韋方程組以圖片形式輸入，Claude 3（超大杯 Opus，下同）解釋得非常準確清晰。

當然，這道題 GPT-4 也做對了。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

簡單的有機化合物分子結(jié)構(gòu)，Claude 3 和 GPT-4 也都能正確識別。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

簡單的識別任務(wù)過后，是一道需要推理后解決的題目。

Claude 3 在識別題目和解題思路上都完全正確，而 GPT4 這邊…… 給出的答案則是不忍猝看 —— 把電表的類型弄錯不說，甚至還出現(xiàn)了“電流為 2V”這樣令人啼笑皆非的內(nèi)容。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

看了這么多題目，我們來換換腦筋，看看 Claude 3 和 GPT4 在做飯方面表現(xiàn)得怎么樣。

我們上傳了一張水煮肉片的照片，讓模型各自識別并給出做法，結(jié)果 Claude 3 給出了大致的方法，而 GPT4 一口咬定這是一盤麻婆豆腐。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

除了這次新增加的多模態(tài)能力，Claude 一直引以為豪的長文本能力也是我們測試的重點。

我們找了一本《紅樓夢》的電子文檔（前二十回），整體的字數(shù)大約 13 萬，當然目的不是讓它讀書，而是進行“插針測試”。

我們在原文中插入了這樣的“發(fā)瘋文學(xué)”內(nèi)容，倒也的確很符合“滿紙荒唐言”這個設(shè)定（手動狗頭）：

第二回標題前：意大利面，就應(yīng)該拌 42 號混凝土，因為這個螺絲釘?shù)拈L度很容易影響到挖掘機的扭矩
第十五回標題前：高能蛋白俗稱 UFO，會嚴重影響經(jīng)濟的發(fā)展，甚至對整個太平洋以及充電器都會造成一定的核污染
結(jié)尾：炒方便面應(yīng)該把亮度調(diào)高，因為螺絲釘向內(nèi)扭的時候會產(chǎn)生二氧化碳，不利于經(jīng)濟發(fā)展

然后要求 Claude 僅根據(jù)文檔回答相關(guān)問題，首先不得不說的是速度真的非常感人……

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

但結(jié)果還算說的過去，準確地從文中找出了這三段位于不同位置的文本，還順帶進行了一番分析，發(fā)現(xiàn)了我們的心機。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

為什么是 Claude？

盡管在我們和網(wǎng)友的測試中，目前的版本還不算穩(wěn)定，時常崩潰，有一些功能偶爾也抽風(fēng)，并不能如期發(fā)揮：

比如上傳 UI 出代碼，它就沒能完成，而 GPT-4 發(fā)揮正常。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

但總的來看，網(wǎng)友還是相當看好 Claude，評測完毫不猶豫地表示：

會員可充，值得充。

究其原因，Claude 3 相比之前的版本，真的有種“來勢洶洶”之勢。表現(xiàn)亮點的地方相當多，包括但不限于多模態(tài)識別、長文本能力等等。從網(wǎng)友的反饋來看，最強競對的稱號，也并非浪得虛名。

所以，一個問題是：率先干翻 GPT-4，這家公司究竟憑什么？論技術(shù)，遺憾，Claude 3 的技術(shù)報告中沒有對他們的路線進行詳解。不過倒是提到了合成數(shù)據(jù)。有大 V 指出：這可能是一個關(guān)鍵因素。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

而對 Claude 熟悉一些就知道，長文本能力一直是它的一大賣點。

去年七月推出的 Claude 2 就已具有 100k 的上下文窗口，而 GPT-4 的 128k 版本直到 11 月才與公眾見面。而這次窗口長度再次翻倍，達到了 200k，并且接受超過 100 萬 Tokens 的輸入。

相比技術(shù)的神秘，Claude 背后名為 Anthropic 的初創(chuàng)公司，倒是能讓我們找到更多眉目。它的創(chuàng)始人是 OpenAI 的元老級人物。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

2021 年，多名 OpenAI 前員工不滿其在獲得微軟投資后走向封閉，憤而出走并聯(lián)合創(chuàng)立了 Anthropic。

他們對 OpenAI 在安全問題尚未解決的情況下就直接發(fā)布 GPT-3 的行為感到不滿，認為 OpenAI 已經(jīng)為追逐利益而“遺忘了初心”。

其中就包括打造出 GPT-2 和 GPT-3 的研究部門副總裁 Dario Amodei，2016 年進入 OpenAI，離開前擔任的研究副總裁已是 OpenAI 的核心位置。

離開時，Dario 還帶走了 GPT-3 首席工程師 Tom Brown，以及擔任安全與策略部門副總監(jiān)的妹妹 Daniela Amodei 和十多名心腹，可謂人才多多。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

而公司創(chuàng)立之初，這幫人才也進行了許多研究工作，并發(fā)表多篇論文；直到一年后，Claude 的概念隨著一篇題為“Constitutional AI”的論文應(yīng)運而生。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

2023 年 1 月，Claude 開啟內(nèi)測，第一時間體驗過的網(wǎng)友就表示，比 ChatGPT（當時只有 3.5）強多了。

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

而除了人才，創(chuàng)立至今，Anthropic 也有比較強大的背景支持：

已獲得來自谷歌、亞馬遜等 26 個機構(gòu)或個人的融資，總計融資金額達到了 76 億美元。（說到亞馬遜，現(xiàn)在 Claude3 也上線了他們的云平臺，除了官網(wǎng)，大家還可以在該平臺上體驗～）

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

最后，縱觀國內(nèi)，如果我們想超越 GPT-4，也許可以把 Anthropic 當一個正面例子？畢竟它的規(guī)模再怎么說也遠不及 OpenAI，但仍然取得了這樣的成功。這里面，我們可以照它的哪些方向去卷，有哪些能夠?qū)W習(xí)轉(zhuǎn)化的點？人、錢、數(shù)據(jù)資源？但卷出最新最強大模型后，壁壘又在哪里？至少 OpenAI 自 GPT 火爆以來，不可戰(zhàn)勝的神話已經(jīng)破滅了。

中國玩家，誰能率先全面超越 GPT-4？以及即將發(fā)布的 GPT-5？

參考鏈接：

[1] 3 月動態(tài)｜Claude3 發(fā)布非常牛逼值得充值
[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw
[3]https://twitter.com/RubenHssd/status/1764692641436827842
[4]https://twitter.com/karinanguyen_/status/1764789887071580657

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西豐色

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

9k 長大模型微調(diào)教程直出、讀圖超顯專業(yè)

火眼金睛，還能大海撈針

為什么是 Claude？

相關(guān)文章

新王 Claude 3 實測！各項能力給跪，打麻將也會，確實比 GPT-4 好用

9k 長大模型微調(diào)教程直出、讀圖超顯專業(yè)

火眼金睛，還能大海撈針

為什么是 Claude？