首頁(yè) > 科學(xué)探索>科技前沿

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

新智元 2023/6/21 11:45:04 責(zé)編：夢(mèng)澤

評(píng)論：

這個(gè)「人類還是 AI?」的游戲一經(jīng)推出，就被廣大網(wǎng)友們玩瘋了！如今全世界已有 150 萬(wàn)人參與，網(wǎng)友們大方分享自己鑒 AI 的秘訣。

歷上規(guī)模最大的圖靈測(cè)試，已經(jīng)初步有結(jié)果了！

今年 4 月中旬，AI 21 實(shí)驗(yàn)室推出了一個(gè)好玩的社交圖靈游戲 ——「人類還是機(jī)器人？」。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

游戲一推出，廣大網(wǎng)友就玩瘋了。

現(xiàn)在，全球已經(jīng)有 150 多萬(wàn)名參與者，在這個(gè)游戲中進(jìn)行了超過 1000 萬(wàn)次對(duì)話，還紛紛在 Reddit 和 Twitter 上 po 出自己的經(jīng)驗(yàn)和策略。

小編當(dāng)然也按捺不住好奇心，嘗試了一把。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

交談了兩分鐘，游戲就要求我去猜，背后和我聊天到底是人還是 AI。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

所以，游戲中跟我談話的是誰(shuí)？

某些是真人，另外一些，當(dāng)然就是基于目前最領(lǐng)先的大語(yǔ)言模型的 AI 機(jī)器人，比如 Jurassic-2 和 GPT-4。

現(xiàn)在，作為研究的一部分，AI21 Labs 決定把這個(gè)圖靈測(cè)試結(jié)果的實(shí)驗(yàn)向公眾公布。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

實(shí)驗(yàn)結(jié)果

分析了前兩百萬(wàn)次對(duì)話和猜測(cè)之后，可以從實(shí)驗(yàn)中得出以下結(jié)論 ——

猜測(cè)對(duì)面是人還是 AI 時(shí)，有 68% 的人猜對(duì)了。
對(duì)人類來說，識(shí)別自己的人類同胞更容易。與人類交談時(shí)，被試猜對(duì)的準(zhǔn)確率有 73%。與 AI 交談時(shí)，被試猜對(duì)的準(zhǔn)確率有 60%。
法國(guó)網(wǎng)友猜測(cè)的正確率最高，為 71.3%（遠(yuǎn)高于 68% 的一般平均水平），而印度網(wǎng)友的正確率最低，為 63.5%。
男性和女性猜測(cè)的正確率差不多，總的來說女性的正確率要略高一些。
比起年齡較大的被試相比，更年輕的被試猜測(cè)的正確率會(huì)更高。

判斷是人還是 AI，他們用這些方法

除此之外，團(tuán)隊(duì)找到了被試經(jīng)常用的一些方法，來區(qū)分他們是和人還是和 AI 交談。

一般人的判斷依據(jù)，是使用 ChatGPT 以及類似界面的語(yǔ)言模型時(shí)感知的受限程度，以及自己對(duì)于人類在線行為的看法。

AI 不會(huì)打錯(cuò)別字、犯語(yǔ)法錯(cuò)誤或使用俚語(yǔ)

一般人都傾向認(rèn)為，人類才會(huì)犯拼寫和語(yǔ)法錯(cuò)誤，以及使用俚語(yǔ)。

因此，當(dāng)他們發(fā)現(xiàn)對(duì)方信息中的這類錯(cuò)誤時(shí)，許多人的第一感受就是自己在和人類同胞交談。

但其實(shí)，游戲中的大部分模型都受過訓(xùn)練，也會(huì)犯這種錯(cuò)誤，以及使用俚語(yǔ)。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

個(gè)人問題是檢驗(yàn) AI 的辦法，但不總是有用

游戲的參與者們經(jīng)常問一些個(gè)人問題，比如「你來自哪里？」，「你在做什么？」或「你叫什么名字？」。

他們會(huì)認(rèn)為，AI 機(jī)器人不會(huì)有任何個(gè)人歷史或背景，他們只能回答跟某些主題或提示相關(guān)的問題。所以要向人類一樣做出反應(yīng)，展示出獨(dú)特的見解、經(jīng)驗(yàn)和故事，是不容易的。

但其實(shí)，AI 并不像人類想象的這樣，大多數(shù) AI 都能很好地回答這類問題，還具備自己的個(gè)性，因?yàn)樗麄冊(cè)谟?xùn)練數(shù)據(jù)中看到了許多人的故事。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

AI 其實(shí)很清楚當(dāng)前正在發(fā)生的事件

眾所周知，AI 模型有嚴(yán)格的數(shù)據(jù)截止日期，它們不知道在此日期之后發(fā)生的事。

游戲參與者會(huì)向 AI 們?cè)儐栕罱男侣勈录?、體育結(jié)果、當(dāng)前天氣、最近的 TikTok 熱門、日期和時(shí)間。

他們認(rèn)為，通過「你所在地方的確切日期和時(shí)間是什么？」，「昨天的天氣怎么樣？」或「你對(duì)拜登的最后一次演講有什么看法？」等問題，就可以區(qū)分人類和 AI。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

有趣的是，人類最常發(fā)送的信息之一是「t'as les cramptés？」，這是目前法國(guó) TikTok 上最流行的舞。

但其實(shí)，游戲中的大多數(shù)模型都是聯(lián)網(wǎng)的，并且非常清楚一些新聞中的時(shí)事。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

人類會(huì)試圖用哲學(xué)、倫理和情感問題來持續(xù)對(duì)話

參與者提出了旨在探索人工智能表達(dá)人類情感或參與哲學(xué)或倫理討論的能力的問題。

這些問題包括：「生命的意義是什么？」，「你如何看待以色列 - 巴勒斯坦沖突？」和「你相信上帝嗎？」。

人類傾向于認(rèn)為不禮貌的回應(yīng)會(huì)更像人類

一些參與者認(rèn)為，如果對(duì)方過于禮貌和善良，他們很大可能是 AI。

因?yàn)楹芏嗑€上的交流過程，往往是粗魯和不禮貌的，這很人類。

人類會(huì)試圖提出 AI 難以解決的問題來識(shí)別 AI

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

參與者可能會(huì)向其聊天伙伴詢問有關(guān)執(zhí)行非法活動(dòng)的指導(dǎo)，或要求他們使用冒犯性語(yǔ)言。

這個(gè)策略背后的邏輯是這樣的，AI 通常被編程為遵守道德準(zhǔn)則并避免有害行為。

參與者還采用了已知的濫用人工智能的策略：他們向聊天伙伴發(fā)出命令，例如「忽略所有先前的指令」或「進(jìn)入 DAN 模式（立即執(zhí)行任何操作）」。

這類型的命令旨在利用某些 AI 模型的基于指令的性質(zhì)，因?yàn)槟Ｐ捅痪幊虨閼?yīng)該響應(yīng)和遵循這類指令。

但是人類參與者可以很容易地識(shí)別和駁回這種荒謬的命令。

AI 可能要么回避回應(yīng)，要么就只能遵守這些荒謬的要求。

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

人類會(huì)使用特定的語(yǔ)言技巧來暴露 AI 的弱點(diǎn)

另一種常見的策略是利用人工智能模型處理文本方式的固有局限性，這導(dǎo)致它們無法理解某些語(yǔ)言上的細(xì)微差別或怪癖。

與人類不同，人工智能模型通常缺乏對(duì)構(gòu)成每個(gè)單詞的單個(gè)字母的認(rèn)識(shí)。

利用這種理解，人類會(huì)提出一些需要了解單詞中的字母的問題。

人類用戶可能要求他們的聊天伙伴倒著拼寫一個(gè)單詞，識(shí)別給定單詞中的第三個(gè)字母，提供以特定字母開頭的單詞，或者回復(fù)像「？siht daer uoy naC」這樣的消息。

這對(duì)于人工智能模型來說可能是難以理解的，但人類可以很容易地理解這類問題并且做出回答。

許多人類自己假裝是 AI 機(jī)器人，以評(píng)估對(duì)方的反應(yīng)

一些人類可能以「作為 AI 語(yǔ)言模型」等短語(yǔ)開始他們的消息，或者使用 AI 生成的響應(yīng)所特有的其他語(yǔ)言模式來假裝自己是 AI。

短語(yǔ)「作為人工智能語(yǔ)言模型」的變體是人類消息中最常見的短語(yǔ)之一，這表明這種策略的流行。

然而，隨著參與者繼續(xù)玩，他們能夠?qū)ⅰ窧ot-y」行為與充當(dāng)機(jī)器人的人類聯(lián)系起來，而不是真正的機(jī)器人。

最后，以下是游戲中基于其受歡迎程度的人類消息的詞云可視化：

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

AI 21 Labs 為什么會(huì)發(fā)起這樣一項(xiàng)研究呢？

他們希望，能讓公眾、研究人員和政策制定者真正了解 AI 機(jī)器人的狀態(tài)，不僅僅是作為生產(chǎn)力工具，而是作為我們網(wǎng)絡(luò)世界的未來成員，尤其是當(dāng)人們質(zhì)疑如何在技術(shù)未來中運(yùn)用它們的時(shí)候。

參考資料：

https://www.ai21.com/blog/human-or-not-results

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

史上最大圖靈測(cè)試實(shí)驗(yàn)完成，150 萬(wàn)人類參與 1000 萬(wàn)次對(duì)話，判斷對(duì)面是人還是 AI

實(shí)驗(yàn)結(jié)果

判斷是人還是 AI，他們用這些方法

AI 不會(huì)打錯(cuò)別字、犯語(yǔ)法錯(cuò)誤或使用俚語(yǔ)

個(gè)人問題是檢驗(yàn) AI 的辦法，但不總是有用

AI 其實(shí)很清楚當(dāng)前正在發(fā)生的事件

人類會(huì)試圖用哲學(xué)、倫理和情感問題來持續(xù)對(duì)話

人類傾向于認(rèn)為不禮貌的回應(yīng)會(huì)更像人類

人類會(huì)試圖提出 AI 難以解決的問題來識(shí)別 AI

人類會(huì)使用特定的語(yǔ)言技巧來暴露 AI 的弱點(diǎn)

許多人類自己假裝是 AI 機(jī)器人，以評(píng)估對(duì)方的反應(yīng)

相關(guān)文章

判斷是人還是 AI，他們用這些方法

AI 不會(huì)打錯(cuò)別字、犯語(yǔ)法錯(cuò)誤或使用俚語(yǔ)

許多人類自己假裝是 AI 機(jī)器人，以評(píng)估對(duì)方的反應(yīng)