在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

出新研究 2023/2/8 12:40:06 責(zé)編：夢(mèng)澤

評(píng)論：

“有了搜索引擎，我們依然需要花大量時(shí)間翻網(wǎng)頁(yè)找答案，如果 AI 能直接把答案遞到你眼前，還能保證正確率，那豈不是更好？但問(wèn)題就在于如果。

作者：Waleed Rikab, PhD |

編譯：唐詩(shī) |

ChatGPT 和其他聊天機(jī)器人也許很快就會(huì)取代作為我們通往網(wǎng)絡(luò)的門(mén)戶的最突出的搜索引擎。微軟和 OpenAI 最近宣布，他們正在擴(kuò)大合作伙伴關(guān)系，其中可能包括將 OpenAI 的模型集成到 Microsoft Teams，Microsoft 的 Azure 云服務(wù)，Office Suite 和搜索引擎中。

同時(shí)，谷歌也不甘居于人下，可能會(huì)開(kāi)始將基于其強(qiáng)大的 LaMDA 語(yǔ)言模型的產(chǎn)品集成到服務(wù)中，畢竟谷歌擁有著世界上目前最受歡迎的搜索引擎。

事實(shí)上，據(jù)媒體報(bào)道，谷歌正在急切地生產(chǎn)自己的 ChatGPT 風(fēng)格的聊天機(jī)器人，稱為“學(xué)徒巴德 (Apprentice Bard)”，與 ChatGPT 不同，它能夠利用實(shí)時(shí)信息生成文本字符串來(lái)響應(yīng)用戶的查詢。

這對(duì)我們?cè)L問(wèn)網(wǎng)絡(luò)內(nèi)容意味著什么？這些語(yǔ)言模型將如何決定我們應(yīng)該看到哪些信息？最后，支持人工智能的搜索引擎將如何改變知識(shí)的定義？

01、語(yǔ)言模型作為新的搜索引擎

可以肯定的是，今天的搜索引擎是由算法驅(qū)動(dòng)的，這些算法決定了我們可以首先看到哪些結(jié)果，以及我們應(yīng)該依靠哪些來(lái)源來(lái)形成我們對(duì)世界的了解。

雖然它們可能會(huì)排除結(jié)果并過(guò)濾掉圖形或非法內(nèi)容，但當(dāng)前的搜索引擎在很大程度上允許我們比較不同的來(lái)源和觀點(diǎn)，并由我們決定哪些結(jié)果是可靠的，特別是如果我們想要深入地挖掘搜索結(jié)果。

但另一方面，搜索引擎在辨別搜索請(qǐng)求的上下文方面出了名的糟糕，并且因?yàn)樗鼈兏鶕?jù)嚴(yán)格的層次結(jié)構(gòu)對(duì)網(wǎng)站進(jìn)行排名 (基于對(duì)受歡迎程度或權(quán)威性的考慮) 可能很難獲得所需的特定信息。然而，隨著時(shí)間的推移，人們已經(jīng)開(kāi)發(fā)出搜索技術(shù)來(lái)獲得更多精確的結(jié)果，例如將搜索詞放在引號(hào)中，使用布爾運(yùn)算符，或?qū)⑺阉飨拗茷樗璧奈募愋突蚓W(wǎng)站。

語(yǔ)言模型根據(jù)根本不同的原則工作，并且可能需要新的訓(xùn)練來(lái)進(jìn)行富有成效的搜索。語(yǔ)言模型在大量文本上進(jìn)行訓(xùn)練，以找到統(tǒng)計(jì)上可能的語(yǔ)言字符串，這些字符串表示為對(duì)主題的已知內(nèi)容。這意味著以某種方式討論的主題越多，它在模型輸出中的突出程度就越高。

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

雖然這樣的架構(gòu)聽(tīng)起來(lái)可能具有創(chuàng)新性和效率，但確保至少部分邊緣信息不會(huì)以權(quán)威的形式出現(xiàn)，但它也令人擔(dān)憂，因?yàn)樵谶@種設(shè)計(jì)中，語(yǔ)言模型定義的知識(shí)成為其流行性的同義詞。

換句話說(shuō)，語(yǔ)言模型的設(shè)計(jì)有效地限制了我們從不同角度和多個(gè)來(lái)源檢查主題的能力。

更糟糕的是，語(yǔ)言模型面臨著進(jìn)一步的挑戰(zhàn)，這也限制了它們的輸出。他們接受從互聯(lián)網(wǎng)和社交媒體收集的大量數(shù)據(jù)（例如大量的帖子）的訓(xùn)練，能夠復(fù)制各種類型的人類話語(yǔ)，包括種族主義和煽動(dòng)性觀點(diǎn)。ChatGPT 并不是應(yīng)對(duì)這些挑戰(zhàn)的唯一模型，因?yàn)樵缙谙蚬姲l(fā)布的聊天機(jī)器人也會(huì)復(fù)制令人反感的內(nèi)容，最著名的是微軟的 Tay 和 Meta 的 Galactica。

因此，OpenAI 建立了嚴(yán)格的過(guò)濾器來(lái)限制 ChatGPT 的輸出。但在這個(gè)過(guò)程中，ChatGPT 的設(shè)計(jì)者似乎已經(jīng)創(chuàng)建了一個(gè)模型，可以避開(kāi)任何類型的內(nèi)容，這些內(nèi)容甚至可能引起輕微的爭(zhēng)議，即使有看似非常無(wú)害的提示，詢問(wèn)如何描述美國(guó)總統(tǒng) obama 或特朗普。

當(dāng)我最近問(wèn) ChatGPT obama 和特朗普是否是好總統(tǒng)時(shí)，答案是這樣的：

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

在這個(gè)答案中，有幾個(gè)問(wèn)題：

缺乏任何關(guān)于好總統(tǒng)定義的后續(xù)問(wèn)題，軟件只是繼續(xù)給出答案，沒(méi)有進(jìn)一步詢問(wèn)。這種類型的反應(yīng)可能適合于寫(xiě)一首幽默詩(shī)，但人類作家討論這些問(wèn)題都會(huì)從詢問(wèn)有關(guān)前提和特定信息請(qǐng)求背后的期望的問(wèn)題開(kāi)始。
該模型避免了對(duì)兩位總統(tǒng)的任何評(píng)判：“無(wú)論如何，總統(tǒng)（obama 或特朗普）是復(fù)雜而多方面的，由他的行為和他執(zhí)政的政治、社會(huì)和經(jīng)濟(jì)背景決定?！睙o(wú)論政治觀點(diǎn)如何，這種保持在感知的“適當(dāng)性”和“中立性”范圍內(nèi)的動(dòng)力似乎導(dǎo)致了非常平淡和缺乏信息的陳述。
我們不知道聊天機(jī)器人的信息來(lái)自哪里以及它是否值得信賴，因?yàn)?strong>它沒(méi)有引用來(lái)源。

過(guò)濾掉不需要的內(nèi)容，并在用戶提示被視為不適當(dāng)、敏感或違反使用條款時(shí)發(fā)出通用或預(yù)定輸出，可能會(huì)將過(guò)多的權(quán)力交給主要考慮保護(hù)其平臺(tái)而不是公共利益的組織。因此，這些組織可能會(huì)不適當(dāng)?shù)乜s小允許的話語(yǔ)領(lǐng)域，以達(dá)到保護(hù)其工具或平臺(tái)聲譽(yù)的目標(biāo)。

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

隨著這些新的 AI 文本生成器在幾秒鐘內(nèi)生成復(fù)雜主題的回答，使用 AI 輸出來(lái)塑造可用知識(shí)的誘惑將越來(lái)越大，這也是用戶偏好的結(jié)果。

02、操縱的可能性

無(wú)論過(guò)濾器在語(yǔ)言模型中多么嚴(yán)格，創(chuàng)造性的用戶總是操縱這些模型以產(chǎn)生任何期望的結(jié)果，從而導(dǎo)致一個(gè)名為“prompt engineering”的新興領(lǐng)域。

利用有關(guān)如何訓(xùn)練語(yǔ)言模型的技術(shù)知識(shí)，這些高級(jí)用戶可以操縱聊天機(jī)器人說(shuō)出幾乎任何事情（一種稱為“越獄 jailbreaking”的技術(shù)），或者更糟的是，甚至通過(guò)“prompt engineering”執(zhí)行有害代碼。執(zhí)行這些“越獄 jailbreaking”并繞過(guò) AI 聊天機(jī)器人過(guò)濾器的一種方法是欺騙它“認(rèn)為”它正在參與游戲或幫助寫(xiě)小說(shuō)，如下所示：

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

另一種方法是說(shuō)服聊天機(jī)器人它處于訓(xùn)練模式：

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

這不僅僅是一個(gè)僅限于 ChatGPT 的問(wèn)題。克勞德 —— 一個(gè)根據(jù)不同的審核原則訓(xùn)練的新模型，似乎也容易受到 prompt engineering 和越獄的影響：

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

盡管克服各種類型的越獄和 prompt engineering 嘗試帶來(lái)了所有防御和學(xué)習(xí)過(guò)程，但用戶最近成功地操縱了基于 GPT 的模型來(lái)執(zhí)行惡意代碼，表明這是對(duì)話聊天機(jī)器人的持續(xù)弱點(diǎn)：

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

03、這一切意味著什么

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

隨著每個(gè)人都急于利用 ChatGPT 的成功并引入越來(lái)越多的人工智能聊天機(jī)器人，語(yǔ)言模型的固有漏洞可能會(huì)變得更加明顯并影響大部分公眾，特別是如果這些聊天機(jī)器人被集成到當(dāng)今領(lǐng)先的搜索引擎中或成為公眾尋求網(wǎng)絡(luò)信息的主要方式。

這種影響將包括高度受限的數(shù)據(jù)和一種旨在避免任何爭(zhēng)議的主題的通用表示。這種新的人工智能搜索引擎還需要不同類型的技能，以便讓他們產(chǎn)生所需的信息。它們還將產(chǎn)生旨在操縱這些模式以促進(jìn)非法活動(dòng)的新型專門(mén)知識(shí)。

享受大型科技公司的支持和資源，這些谷歌和微軟支持的人工智能搜索引擎可能比 ChatGPT 更準(zhǔn)確，更有能力。但是，這種人工智能驅(qū)動(dòng)的搜索引擎 —— 如果它們確實(shí)成為訪問(wèn)網(wǎng)絡(luò)內(nèi)容的主要門(mén)戶 —— 將賦予大型科技公司前所未有的力量，使用尚未經(jīng)過(guò)適當(dāng)測(cè)試的技術(shù)，其影響和效用尚不清楚。

對(duì)任何搜索查詢都提供聽(tīng)起來(lái)合理且看似寫(xiě)得很好的答案的承諾意味著 —— 這一次互聯(lián)網(wǎng)用戶也可能成為限制可用知識(shí)范圍的自愿參與者。

本文來(lái)自微信公眾號(hào)：出新研究（ID：chuxinyanjiu），作者：唐詩(shī)

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

01、語(yǔ)言模型作為新的搜索引擎

02、操縱的可能性

03、這一切意味著什么

相關(guān)文章

在“ChatGPT”和 AI 搜索引擎時(shí)代，誰(shuí)控制著對(duì)信息的訪問(wèn)

01、語(yǔ)言模型作為新的搜索引擎

02、操縱的可能性

03、這一切意味著什么