<dfn id="wejjf"><cite id="wejjf"></cite></dfn>

<menu id="wejjf"><acronym id="wejjf"><th id="wejjf"></th></acronym></menu>

首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時(shí)代>人工智能

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

量子位 2024/7/26 15:00:36 責(zé)編：清源

評論：

繼分不清 9.11 和 9.9 哪個(gè)大以后，大模型又“集體失智”了！數(shù)不對單詞“Strawberry”中有幾個(gè)“r”，再次引起一片討論。

GPT-4o 不僅錯(cuò)了還很自信。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

剛出爐的 Llama-3.1 405B，倒是能在驗(yàn)證中發(fā)現(xiàn)問題并改正。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

比較離譜的是 Claude 3.5 Sonnet，還越改越錯(cuò)了。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

說起來這并不是最新發(fā)現(xiàn)的問題，只是最近新模型接連發(fā)布，非常熱鬧。

一個(gè)個(gè)號稱自己數(shù)學(xué)漲多少分，大家就再次拿出這個(gè)問題來試驗(yàn)，結(jié)果很是失望。

在眾多相關(guān)討論的帖子中，還翻出一條馬斯克對此現(xiàn)象的評論：

好吧，也許 AGI 比我想象的還要更遠(yuǎn)。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

路遇失智 AI，拼盡全力終于教會

有人發(fā)現(xiàn)，即使使用 Few-Shot CoT，也就是“一步一步地想”大法附加一個(gè)人類操作示例，ChatGPT 依然學(xué)不會：

倒是把 r 出現(xiàn)的位置都標(biāo)成 1，其他標(biāo)成 0，問題的難度下降了，但是數(shù)“1”依舊不擅長。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

為了教會大模型數(shù) r，全球網(wǎng)友腦洞大開，開發(fā)出各種奇奇怪怪的提示詞技巧。

比如讓 ChatGPT 使用漫畫《死亡筆記中》高智商角色“L”可能使用的方法。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

ChatGPT 想出的方法倒是也很樸素，就是分別把每個(gè)字母寫出來再一個(gè)一個(gè)數(shù)并記錄位置，總之終于答對了。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

有 Claude 玩家寫了整整 3682 個(gè) token 的提示詞，方法來自 DeepMind 的 Self-Discover 論文，可以說是連夜把論文給復(fù)現(xiàn)了。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

整個(gè)方法分為兩大階段：先針對特定任務(wù)讓 AI 自我發(fā)現(xiàn)推理步驟，第二階段再具體執(zhí)行。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

發(fā)現(xiàn)推理步驟的方法簡單概括就是，不光要會抽象的思維方法，也要具體問題具體分析。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

這套方法下，Claude 給出的答案也非常復(fù)雜。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

作者補(bǔ)充，花這么大力氣解決“數(shù) r 問題”其實(shí)并不真正實(shí)用，只是在嘗試復(fù)現(xiàn)論文方法時(shí)偶然測試到了，希望能找出一個(gè)能用來回答所有問題的通用提示詞。

不過很可惜，這位網(wǎng)友目前還沒公布完整的提示詞。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

還有人想到更深一層，如果要計(jì)算文檔中 straberry 出現(xiàn)多少次怎么辦？

他的方法是讓 AI 想象有一個(gè)從 0 開始的內(nèi)存計(jì)數(shù)器，每次遇到這個(gè)單詞就往上加。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

有人評論這種方法就像在用英語編程。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

也有 AI 可以一次做對

那么究竟有沒有大模型，可以不靠額外提示詞直接答對呢？

其實(shí)不久之前有網(wǎng)友報(bào)告，ChatGPT 是有小概率能直接答對的，只不過不常見。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

谷歌 Gemini 大概有三分之二的概率能答對，打開“草稿”就能發(fā)現(xiàn)，默認(rèn)每個(gè)問題回答三次，兩次對一次錯(cuò)。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

至于國內(nèi)選手，在提問方式統(tǒng)一、每個(gè)模型只給一次嘗試機(jī)會的測試下，上次能正確判斷數(shù)字大小的，這次同樣穩(wěn)定發(fā)揮。

字節(jié)豆包給出了正確回答，還猜測用戶問這個(gè)問題是要學(xué)習(xí)單詞拼寫嗎？

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

智譜清言的 ChatGLM，自動觸發(fā)了代碼模式，直接給出正確答案“3”。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

騰訊元寶像解數(shù)學(xué)題一樣列方程給出了正確答案（雖然貌似沒有必要）。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

文心一言 4.0 收費(fèi)版則更加詳細(xì)，也是先正確理解了意圖，然后掰指頭挨個(gè)找出了全部的“r”。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

不過有意思的是，在同一種方法下，文心一言 App 中的免費(fèi)版文心 3.5 掰指頭也能數(shù)錯(cuò)。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

訊飛星火也通過找出“r”所在位置給出了正確回答。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

還是 token 的鍋

雖然“數(shù) r”和“9.11 與 9.9 哪個(gè)大”，看似一個(gè)是數(shù)字問題一個(gè)是字母問題，但對于大模型來說，都是 token 問題。

單個(gè)字符對大模型來說意義有限，使用 GPT 系列的 Llama 系列的 tokenizer 就會發(fā)現(xiàn)，20 個(gè)字符的問題，在不同 AI 眼中是 10-13 個(gè) token。

其中相同之處在于，strawberry 被拆成了 st-，raw，-berry 三個(gè)部分來理解。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

換一個(gè)思路用特殊字符??????????來提問，每一個(gè)字符對應(yīng)的 token 也就會分開了。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

面對這種問題，其實(shí)最簡單的方法就是像智譜清言一樣，調(diào)用代碼來解決了。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

可以看到，ChatGPT 直接用 Python 語言字符串的 count 函數(shù)，就能簡單搞定。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

剛剛創(chuàng)業(yè)開了所學(xué)校的大神卡帕西認(rèn)為，關(guān)鍵在于需要讓 AI 知道自己能力的邊界，才能主動去調(diào)用工具。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

至于教給大模型判斷自己知道不知道的方法，Meta 在 LLama 3.1 論文中也有所涉及。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

最后正如網(wǎng)友所說，希望 OpenAI 等大模型公司，都能在下個(gè)版本中解決這個(gè)問題。

大模型智障檢測 + 1：Strawberry 有幾個(gè) r 紛紛數(shù)不清，最新最強(qiáng) Llama3.1 也傻了

GPT Tokenizer 試玩：

https://gpt-tokenizer.dev

Llama Tokenizer 試玩：

https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/

參考鏈接：

[1]https://x.com/diegoasua/status/1816146114573394143
[2]https://www.reddit.com/r/ClaudeAI/comments/1eap6b1/comment/leolf3t/
[3]https://www.reddit.com/r/ChatGPT/comments/1do7cnq/counting_the_rs_a_chat_with_chatgpt/
[4]https://www.reddit.com/r/ChatGPT/comments/1dpfj2c/a_prompt_where_chatgpt_gets_the_strawberry/

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨一水

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：人工智能，大模型

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會買要知

<object id="kxyrv"><span id="kxyrv"></span></object>