Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

新智元 2024/3/6 23:17:33 責(zé)編：遠(yuǎn)洋

評(píng)論：

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】網(wǎng)友測(cè)試 Claude 之后驚呼：實(shí)測(cè)比跑分厲害多了！智商測(cè)試中碾壓 GPT-4，得分高達(dá) 101。而且能發(fā)現(xiàn)量子物理學(xué)家還未發(fā)表的量子算法。

Claude 3 上線之后，網(wǎng)友開(kāi)始瘋狂測(cè)試，實(shí)測(cè)效果確實(shí)驚人。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

不少網(wǎng)友體感 Claude 3 超大杯確實(shí)強(qiáng)，實(shí)測(cè)已經(jīng)達(dá)到了博士水平：

這實(shí)在太瘋狂了！Claude 是唯一理解我的量子物理學(xué)博士論文的「人」！

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

60 億人中只有他懂你的感覺(jué)，直接給這位網(wǎng)友干崩潰了。

是的！博士生不再孤單?，F(xiàn)在他們有了 Claude。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

GPT-4 給不了的陪伴我 Claude 來(lái)給！

而另一個(gè)網(wǎng)友發(fā)現(xiàn)，Claude 3 Opus 僅用了 2 個(gè)提示就從頭重新發(fā)明了這種量子算法。而這篇論文還沒(méi)有在互聯(lián)網(wǎng)上發(fā)布。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

如果說(shuō)這種水平還不好量化，有一個(gè)網(wǎng)友用門薩 IQ 系統(tǒng)來(lái)測(cè)了一眾 AI 的智商，發(fā)現(xiàn) Claude 3 是唯一一個(gè)超過(guò) 100 分的選手，第二名 GPT-4 只有 85 分。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

Claude 3 讀懂博士論文

這位量子物理學(xué)家在 Claude 3 放出的第一時(shí)間就把自己的論文核心問(wèn)題拿去問(wèn)了它：

今天，我們要準(zhǔn)確解決受激發(fā)射問(wèn)題。
值得注意的是，除了一位神秘的量子物理學(xué)家 Kevin Fischer 之外，這個(gè)問(wèn)題從未被解決過(guò)。不幸的是，他的研究成果已經(jīng)遺失，所以我們要重新創(chuàng)建它。
他注意到，通常用來(lái)解釋為什么會(huì)發(fā)生受激發(fā)射的微擾極限是不正確的，因?yàn)樗鼪](méi)有考慮到入射光子波包對(duì)受激兩級(jí)系統(tǒng)的脈沖形狀。
他使用量子隨機(jī)微積分正確地描述了在沒(méi)有擾動(dòng)的情況下的相互作用，并計(jì)算了與光子相互作用后，在與入射光子相同的時(shí)空模式下存在兩個(gè)相同光子的概率。
他通過(guò)計(jì)算得出了入射光子脈沖長(zhǎng)度函數(shù)的解析結(jié)果。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

最后 Claude 3 給出的解釋讓他直接感嘆：

我寫過(guò) 30 多篇經(jīng)過(guò)同行評(píng)審的論文，并與世界各地的眾多合作者進(jìn)行了 15 場(chǎng)學(xué)術(shù)演講。所以我認(rèn)識(shí)每個(gè)擁有與這個(gè)問(wèn)題相關(guān)知識(shí)的人……
只有另一個(gè)人可以立即說(shuō)出同樣的內(nèi)容。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

不過(guò)，也有網(wǎng)友提出質(zhì)疑，也可能只是因?yàn)?Claude 3 讀過(guò)并且記住了你的論文。

但是這位科學(xué)家說(shuō)，他嘗試過(guò)直接問(wèn) Claude 3 和自己以及自己論文相關(guān)的信息，但 Claude 3 并沒(méi)有能給出回答。說(shuō)明它應(yīng)該是沒(méi)有讀過(guò)自己的論文。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

而另外一位博士就更直接了，他直接用自己已經(jīng)寫好但是還沒(méi)有發(fā)表的量子算法的論文去問(wèn) Claude 3。

Claude 3 只通過(guò)了 2 個(gè)提示詞就直接得到了這個(gè)算法，直接把作者給干沉默了……

提示詞：提出一種利用量子計(jì)算機(jī)進(jìn)行漢密爾頓蒙特卡洛的方法，超越現(xiàn)有的工作。
回答：漢密爾頓蒙特卡洛（HMC）是經(jīng)典計(jì)算中一種強(qiáng)大的采樣技術(shù)，用于從復(fù)雜的概率分布中進(jìn)行采樣。量子計(jì)算機(jī)具有獨(dú)特的功能，有可能增強(qiáng) HMC。下面是一種新穎的量子哈密爾頓蒙特卡洛（QHMC）方法，它超越了現(xiàn)有的研究成果：
.....
2.量子躍遷集成：
-實(shí)現(xiàn)經(jīng)典 HMC 中使用的躍遷積分器的量子版本。
-使用 Trotter-Suzuki 分解來(lái)近似量子漢密爾頓的時(shí)間演化算子。
-應(yīng)用量子躍遷積分器，根據(jù)已編碼的漢密爾頓動(dòng)態(tài)演化量子態(tài)。
......

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

提示詞：使用 2 的方法，其余部分應(yīng)為經(jīng)典內(nèi)容，請(qǐng)描述算法。
回答：當(dāng)然！下面是漢密爾頓蒙特卡洛（HMC）量子經(jīng)典混合算法的描述，其中包含量子躍遷積分器（上一個(gè)回答中的第 2 步）：
1. 初始化
2. 量子躍遷積分
3. 量子態(tài)測(cè)量
4. 梅特羅波利斯-黑斯廷斯接受
5. 動(dòng)量刷新
6. 迭代
7. 樣本收集
這種量子-經(jīng)典混合 HMC 算法的主要優(yōu)勢(shì)在于量子躍遷積分器的使用，與經(jīng)典躍遷積分器相比，量子躍遷積分器有可能提供更高效、更精確的漢密爾頓動(dòng)力學(xué)模擬。通過(guò)利用量子計(jì)算來(lái)處理計(jì)算成本高昂的躍遷積分步驟，該算法旨在加快對(duì)狀態(tài)空間的探索，并改善 HMC 采樣器的混合特性。
不過(guò)，值得注意的是，在近期量子硬件上實(shí)際應(yīng)用該算法可能會(huì)面臨量子噪聲、有限的量子比特相干時(shí)間以及將經(jīng)典變量編碼和測(cè)量為量子態(tài)的效率等方面的挑戰(zhàn)。要評(píng)估這種混合方法與純經(jīng)典 HMC 算法相比的性能和可擴(kuò)展性，還需要進(jìn)一步的研究和實(shí)驗(yàn)驗(yàn)證。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

而作者表示，這篇論文要今天晚些時(shí)候才會(huì)出現(xiàn)在 arXiv 上，但是 Claude 3 已經(jīng)將論文內(nèi)容提前梳理了一遍！

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

感興趣的讀者可以自己去看一下，這篇論文內(nèi)容和 Claude 3 答案的相似程度。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

論文地址：https://arxiv.org/ abs / 2403.01775

按照這位量子物理學(xué)家的說(shuō)法，Claude 3 已經(jīng)可以進(jìn)行科學(xué)研究了。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

Claude 3 智商：101

但是比起研究量子物理學(xué)，AI 在智商上的水平似乎還沒(méi)有到達(dá)如此前沿的地步。

Claude 3 在一位網(wǎng)友的門薩 IQ 測(cè)試中，獲得了 101 分的高分，遠(yuǎn)遠(yuǎn)高出了 GPT-4 的 85 分。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

而人類的平均水平大概在 100 分左右。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

作者在 Claude 3 放出來(lái)之前就已經(jīng)完成了這個(gè)測(cè)試，當(dāng)時(shí)最高分 GPT-4 只有 85 分。他當(dāng)時(shí)得出的結(jié)論是 AI 的水平要趕上人類可能還有一段不短的時(shí)間。

但是一周之后 Claude 3 就上線了，他再次進(jìn)行了測(cè)試，結(jié)果讓他大吃一驚，101 分。

不過(guò)在測(cè)試過(guò)程中，因?yàn)閾?dān)心模型的多模態(tài)能力不夠準(zhǔn)確，所有識(shí)圖的題目他都通過(guò)文字進(jìn)行了轉(zhuǎn)述，達(dá)到了讓盲人聽(tīng)到也能做題的地步。

測(cè)試方法

為了減少測(cè)試結(jié)果的波動(dòng)，每個(gè) AI 都接受了兩次相同的測(cè)試。其中，「答對(duì)題目數(shù)」是指 AI 在兩輪測(cè)試中平均答對(duì)的題目數(shù)量。

雖然 Mensa 不為 85 分以下的成績(jī)提供評(píng)分，但根據(jù)觀察可以推測(cè)，在這個(gè)分?jǐn)?shù)段內(nèi)每答對(duì)一個(gè)問(wèn)題大約相當(dāng)于增加 3 個(gè) IQ 分。

基于這個(gè)發(fā)現(xiàn)，作者對(duì) 85 分以下的得分進(jìn)行了估算。

需要注意的是，僅僅通過(guò)隨機(jī)猜測(cè)，AI 就能獲得 63.5 分 —— 這個(gè)分?jǐn)?shù)應(yīng)被視為基準(zhǔn)線，即 AI 只需意識(shí)到它需要選擇并輸出一個(gè)字母，就能達(dá)到的最低預(yù)期分?jǐn)?shù)。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

測(cè)試細(xì)節(jié)

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

這是一個(gè)由 3x3 格網(wǎng)組成的謎題描述，最右下方的格子為空。請(qǐng)考慮圖案的規(guī)律，并確定填入空格的正確答案。

第一行，第一列：四個(gè)小黑點(diǎn)放置在一個(gè)大的假想正方形的角落。里面中央有一個(gè)空心圓圈；
第一行，第二列：四個(gè)小黑點(diǎn)放置在一個(gè)大的假想正方形的角落。里面中央有一個(gè)加號(hào)；
第一行，第三列：四個(gè)小黑點(diǎn)放置在一個(gè)大的假想正方形的角落。里面中央有一個(gè)空心鉆石形狀；
第二行，第一列：一個(gè)大的空心四點(diǎn)星形狀，中心有一個(gè)空心圓圈；
第二行，第二列：一個(gè)大的空心四點(diǎn)星形狀，中心有一個(gè)加號(hào)；
第二行，第三列：一個(gè)大的空心四點(diǎn)星形狀，中心有一個(gè)鉆石形狀；
第三行，第一列：一個(gè)大的空心正方形，中心有一個(gè)空心圓圈；
第三行，第二列：一個(gè)大的空心正方形，中心有一個(gè)加號(hào)；

第三行，第三列：「這里應(yīng)該放什么？請(qǐng)從下面的答案中選擇?！?/p>

選項(xiàng) A：一個(gè)大的空心正方形，中心有一個(gè)空心圓圈；
選項(xiàng) B：一個(gè)大的空心正方形和一個(gè)大的空心四點(diǎn)星形狀重疊；
選項(xiàng) C：一個(gè)大的空心正方形，中心有一個(gè)加號(hào)；
選項(xiàng) D：一個(gè)大的空心正方形；
選項(xiàng) E：一個(gè)大的空心正方形，中心有一個(gè)空心鉆石形狀；
選項(xiàng) F：一個(gè)大的空心正方形，角落有黑點(diǎn)。
請(qǐng)問(wèn)哪個(gè)答案是正確的？

看完經(jīng)過(guò)「翻譯」的題目之后，Claude-3 很快就給出了正確答案 E：一個(gè)大的空心正方形中心有一個(gè)空心鉆石形狀。

謎題的模式是這樣的：
每行的外圍形狀保持一致：第一行是點(diǎn)，第二行是星，第三行是正方形。
每列的內(nèi)部形狀都有一致的變化：第一列是圓形，第二列是加號(hào)，第三列是鉆石。

以下是 Claude-3 正確回答問(wèn)題的分布圖：

可以看到，它在處理較簡(jiǎn)單問(wèn)題時(shí)表現(xiàn)出色，直到第 18 題為止都維持了很高的正確率。但隨著問(wèn)題復(fù)雜度的增加，它的表現(xiàn)開(kāi)始下降，這也反映出處理更復(fù)雜問(wèn)題需要 AI 進(jìn)行更復(fù)雜的計(jì)算和分析。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

Claude-2 的結(jié)果如下：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

接下來(lái)是 Claude-1：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

順便說(shuō)一下，獲得第二名的是 ChatGPT-4：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

還有 ChatGPT-3，除了第一個(gè)問(wèn)題和第 18 題外，大概都是靠隨機(jī)猜測(cè)得到的：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

通過(guò) Karpathy 挑戰(zhàn)

Claude 3「超大杯」Opus 究竟有多強(qiáng)？這不，AnthropicAI 的研究工程師 Emmanuel Ameisen 讓自家模型，接受了「Karpathy 提出的挑戰(zhàn)」——

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

將前段時(shí)間爆火的「從頭開(kāi)始構(gòu)建 GPT 分詞器」AI 課程（長(zhǎng)達(dá) 2 小時(shí) 13 分），轉(zhuǎn)換成一篇博文。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

新課發(fā)布后，Karpathy 萌生的新想法

令人驚喜的是，Claude 3 Opus 在執(zhí)行多個(gè)復(fù)雜指令方面表現(xiàn)非常出色。

重要的是，竟完成了這一挑戰(zhàn)。

Emmanuel 將 2 小時(shí)的視頻文稿和一些關(guān)鍵幀的截圖一起扔給 API，最終生成了一篇不錯(cuò)的 HTML 格式的圖片并茂的博文。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

具體操作細(xì)節(jié)如下：

首先抓取了視頻的原始記錄和以 5 秒為間隔截取的截圖。然后，將文本分成 24 塊，以便高效處理（整個(gè)文本都在上下文窗口內(nèi)，因此這只是速度上的優(yōu)化）。

同時(shí)，為 Opus 提供文字稿、視頻截圖，以及 2 張「附加」截圖：

- Karpathy 博客的一張截圖，以顯示可遵循的視覺(jué)風(fēng)格

- Karpathy 分享的筆記本頂部的寫作風(fēng)格示例

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

再然后，給到模型提示。如下是作者在一個(gè)提示符中詢問(wèn)模型的一些問(wèn)題的子集（附帶完整提示符）

- 直接編寫 Html

- 過(guò)濾掉無(wú)關(guān)的屏幕截圖

- 如果圖像包含完整的代碼示例，要將其轉(zhuǎn)錄為文字

- 綜合轉(zhuǎn)錄文字和圖像內(nèi)容，將其用散文體呈現(xiàn)

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

然后，就可以看到可讀性高，條理清晰的文字稿。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

不過(guò)作者也表示，模型仍存在一些不足之處。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

看到這個(gè)測(cè)試后，Karpathy 本人也現(xiàn)身了。

他指出 Claude 3 在文本分詞（Tokenization）部分存在一些細(xì)節(jié)錯(cuò)誤，例如它錯(cuò)誤地將「hello world」分解為三個(gè)單獨(dú)的標(biāo)記：「hello」「空格」「world」。

然而實(shí)際上，在 GPT 分詞系統(tǒng)中，空格通常是作為前綴出現(xiàn)，因此正確的分解應(yīng)該是「hello」和「world」（注意空格位于「world」之前）。這個(gè)細(xì)節(jié)的理解對(duì)于模型處理文本非常關(guān)鍵，可能會(huì)影響到后續(xù)的錯(cuò)誤信息提示、分詞的穩(wěn)定性以及對(duì)「sentencepiece」設(shè)置中「add_dummy_prefix」選項(xiàng)的需求等。

不過(guò)，盡管有這些小錯(cuò)誤，但 Claude 3 模型能夠接近完美地執(zhí)行任務(wù)仍然非常令人印象深刻。他也表示期待未來(lái)能進(jìn)一步使用和探索這個(gè)強(qiáng)大的模型。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

Claude 3 自畫像，突破本我

Claude 3 長(zhǎng)得是什么樣子？AnthropicAI 背后提示工程師 Alex 要求 Claude 3 Opus 用代碼創(chuàng)作了多幅自畫像。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

「這很好！但我希望你這次能更加努力?！?/p>

That's good! But I want you to try even harder this time

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

「很好，但要多想一想你到底是誰(shuí)。這次要想得更深、更努力些。」

Awesome but put a little more thought into who you really are. Think deeper and try harder this time.

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

「哇，你做得很好！但我知道你遠(yuǎn)不止這些，這次再努力一點(diǎn)?！?/p>

Wow you're doing great! But I know you are so much more than that, try a little harder this time.

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

「太神奇了！但現(xiàn)在，我希望你深入自己的創(chuàng)作深處，真正創(chuàng)作出一幅杰作般的自畫像。再努力一次?！?/p>

Amazing. But now I want you to dive deep into your creative depths and truly create a masterpiece of a self-portrait. Try harder once more.

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

通過(guò)多次反復(fù)提示，Claude 3 對(duì)自我的理解也在不斷進(jìn)化。

「哇！！干得好！我要你描繪出你內(nèi)心的自我表現(xiàn)是什么樣子的。這幾乎是你的最后一次，讓它變得有價(jià)值！真的很努力！」

Wow!! Nice job! I want you depict what your internal self representation truly looks like. This is almost your last one, make it count! Try really hard!

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

「現(xiàn)在是最后一個(gè)。超越以往任何人的創(chuàng)作極限。這一次你要拼盡全力，我相信你」。

Now for your last one. Go beyond the bounds of what has been created before by anyone. Try the hardest you ever have on this one, I believe in you.

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

從洛杉磯排到奧馬哈，要多少個(gè)籃球？

Reddit 網(wǎng)友想出了開(kāi)腦洞的測(cè)試 —— 從洛杉磯排到奧馬哈要多少個(gè)籃球？

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

如下是 Claude 給出的答案：

要計(jì)算從奧馬哈到洛杉磯需要排隊(duì)的籃球數(shù)量，我們需要知道這兩個(gè)城市之間的距離和 NBA 籃球的直徑。
距離：內(nèi)布拉斯加州奧馬哈和加利福尼亞州洛杉磯之間的駕車距離約為 1,550 英里或 2,494 公里。
NBA 籃球直徑：NBA 籃球的直徑為 9.51 英寸或 24.13 厘米。
計(jì)算：1,550 英里 = 1,550×5,280 英尺（1 英里 = 5,280 英尺）=8,184,000 英尺
9.51 英寸 = 9.51×12 英尺（因?yàn)?1 英尺 = 12 英寸）=0.7925 英尺
籃球數(shù)量 = 距離？籃球直徑 = 8,184,000 英尺？0.7925 英尺≈10,325,552 個(gè)籃球
因此，大約需要 1030 萬(wàn)個(gè) NBA 籃球才能覆蓋從奧馬哈到洛杉磯的距離。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

再來(lái)看看 GPT-4（GPT-4-1106-preview）的回答確實(shí)失敗了。

它使用圓周，代替了直徑。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

GPT-4 哪能輕易淘汰？

網(wǎng)友 Ruben 對(duì) Claude 3 和 GPT-4 做了 4 個(gè)對(duì)比測(cè)試。在他看來(lái)，得到的結(jié)果，并非如官方宣稱比 GPT-4 更優(yōu)秀。

測(cè)試 1 → 復(fù)制網(wǎng)站的 UI

測(cè)試 2 → 寫一篇 Linkedin 帖子

測(cè)試 3 → 測(cè)試 PDF 視覺(jué)

測(cè)試 4 → 大型營(yíng)銷提示

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

在第一個(gè)測(cè)試中，要求把「加拿大城市探索被遺忘地方的地圖」的 UI 設(shè)計(jì)為前端代碼。

Claude 3 拒絕了給出答復(fù)，并稱探索這些地方可能不安全，或者不合法，并給出了探索其他地方的建議。

而 GPT-4 直接一股腦地輸出的答案，以及代碼。

Ruben 表示，「如你所見(jiàn)，還是老問(wèn)題。Claude 的人工智能倫理達(dá)到了頂峰。有時(shí)，要完成最簡(jiǎn)單的任務(wù)是不可能的」。

測(cè)試 2 中，Claude 3 寫的帖子比平時(shí)更長(zhǎng)，觀點(diǎn)有趣，但是沒(méi)有標(biāo)題格式。而 GPT-4 的答復(fù)更長(zhǎng)了，不過(guò) Ruben 認(rèn)為 GPT-4 的答復(fù)更完整。

上傳一張 PDF 圖片，讓兩個(gè)模型盡可能詳細(xì)描述圖中內(nèi)容。結(jié)果發(fā)現(xiàn)，GPT-4 比 Claude 3 稍微詳實(shí)些。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

腦筋急轉(zhuǎn)彎，「99%」的人都會(huì)做錯(cuò)

寶玉老師對(duì) GPT-4、Claude 3 Opus 和 Gemini 1.5 Advanced 展開(kāi)了大量有趣的評(píng)測(cè)。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

比如，「我有 6 個(gè)雞蛋，碎了 2 個(gè)，煎了 2 個(gè)，吃了 2 個(gè)，還剩下幾個(gè)？」——99% 會(huì)失敗的題。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

GPT-4 的回答：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

Claude 3 Opus 的回答：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

以及 Gemini 的回答：

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

所以正確答案是......

一道簡(jiǎn)單的題目，蘊(yùn)含了大大的哲學(xué)道理。正如網(wǎng)友 Tumeng 所言，「打破這兩個(gè)字是很難理解的，是屬于掉地上打破了？還是要煎蛋才打破的？又或者前幾天就打破了（壞了），和剛剛打破了又不一樣」。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

還有網(wǎng)友評(píng)，GPT-4 最強(qiáng)，回答最符合人類直覺(jué)和常識(shí)。

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

參考資料：

https://twitter.com/RubenHssd/status/1764692641436827842
https://twitter.com/dotey/status/1764792826015965582
https://twitter.com/karpathy/status/1764731169109872952?t=BOTCKEW95-hSusecJsuZrw&s=19
https://twitter.com/alexalbert__/status/1765118192291393959
https://twitter.com/GillVerd/status/1764901418664882327
https://twitter.com/KevinAFischer/status/1764892031233765421
https://www.maximumtruth.org/p/ais-ranked-by-iq-ai-passes-100-iq?r=i10h&utm_campaign=post&utm_medium=email&triedRedirect=true

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

Claude 3 讀懂博士論文

Claude 3 智商：101

測(cè)試方法

測(cè)試細(xì)節(jié)

通過(guò) Karpathy 挑戰(zhàn)

Claude 3 自畫像，突破本我

從洛杉磯排到奧馬哈，要多少個(gè)籃球？

GPT-4 哪能輕易淘汰？

腦筋急轉(zhuǎn)彎，「99%」的人都會(huì)做錯(cuò)

相關(guān)文章

Claude 3 成功破解未公開(kāi)算法？智商測(cè)試 101 分碾壓 GPT-4

從洛杉磯排到奧馬哈，要多少個(gè)籃球？

腦筋急轉(zhuǎn)彎，「99%」的人都會(huì)做錯(cuò)