聊天機器人正在消化互聯網，而互聯網希望拿到回報

2023/4/30 12:27:29 來源：網易科技作者：小小責編：汪淼

評論：

4 月 30 日消息，人工智能公司正在利用無數人在互聯網上創(chuàng)作的內容，但沒有征得他們的同意，也沒有給予任何報酬。如今，越來越多的科技和媒體公司開始要求支付費用，希望從聊天機器人的熱潮中分一杯羹。

翻譯內容如下：

如果你曾在博客上發(fā)表過文章、在 Reddit 上發(fā)布過帖子，或在開放網絡上分享過任何內容，那么你就有可能為最新一代人工智能的誕生做出了貢獻。

谷歌的 Bard、OpenAI 的 ChatGPT、微軟的新版必應以及其他初創(chuàng)公司提供的類似工具，都整合了人工智能語言模型。但如果沒有互聯網上免費獲取的海量文本，這些聰明的機器人作家將無法問世。

如今，網頁內容再次成為爭奪的焦點。這種情況自早期搜索引擎之爭以來就沒有出現過?？萍季揞^試圖將這個不可替代的、富含全新價值的信息源劃分為自己的領地。

原本不知情的科技和媒體公司正在意識到，這些數據對于培養(yǎng)新一代基于語言的人工智能至關重要。Reddit 是 OpenAI 寶貴的培訓資源之一，但最近前者宣布會向人工智能公司收取數據訪問的費用。OpenAI 拒絕就此發(fā)表評論。

最近，推特也開始對數據訪問服務收費，這一變化影響了推特業(yè)務的許多方面，包括人工智能公司對數據的使用。代表出版商的新聞媒體聯盟本月在一篇論文中宣布，當公司利用其成員制作的作品對人工智能進行培訓時，它們應該支付許可費。

程序員問答網站 Stack Overflow 的首席執(zhí)行官普拉尚思?錢德拉塞卡 (Prashanth Chandrasekar) 表示：“對我們來說，真正重要的是信息的歸屬。”對于大型人工智能公司訪問網站上的用戶創(chuàng)作內容，這家公司計劃開始收取費用，“Stack Overflow 社區(qū)在過去 15 年中花了那么多精力回答問題，我們真的想確保努力得到回報?！?/p>

以前曾出現許多人工智能服務，如 OpenAI 的 Dall-E 2，它們可以通過學習來生成圖像，但卻被指控大規(guī)模竊取知識產權。創(chuàng)建這些系統的公司目前正卷入針對這些指控的訴訟。而人工智能生成的文本之爭可能會更大，不僅涉及到補償和信用問題，還涉及到隱私問題。

但華盛頓大學計算語言學家艾米麗?本德爾（Emily M. Bender）認為，根據現行法律，人工智能機構不必對其行為負責。

這場爭端的起因在于人工智能聊天機器人的開發(fā)方式。這些機器人的核心算法被稱為“大型語言模型算法”，需要通過吸納和處理大量現有的語言文本數據，以模仿人類說話的內容和方式。這類數據與我們在互聯網上所習慣的服務不同，比如 Facebook 母公司 Meta Platforms 等用于定向廣告的行為和個人信息。

這些數據是由人類用戶使用各種服務所創(chuàng)造的，比如 Reddit 用戶發(fā)布的數億條帖子。只有在網絡上，你才能找到足夠大的人工生成詞庫。如果沒有它，今天所有基于聊天方式的人工智能和相關技術都不會成功。

非營利組織艾倫人工智能研究所的研究科學家杰西?道奇 (Jesse Dodge) 在 2021 年發(fā)表的一篇論文中發(fā)現，維基百科和無數來自大大小小媒體機構、受版權保護的新聞文章，都存在于最常用的網絡爬蟲數據庫中。谷歌和 Facebook 都使用這個數據集來訓練大型語言模型，OpenAI 也使用了類似的數據庫。

OpenAI 不再公開其數據來源，但據該公司 2020 年發(fā)表的一篇論文，其大型語言模型使用從 Reddit 抓取的帖子來過濾和改進用于訓練其人工智能的數據。

Reddit 的發(fā)言人蒂姆?拉斯施密特 (Tim Rathschmidt) 表示，目前還不確定向訪問其數據的公司收取費用會帶來多少收入，但相信他們所擁有的數據可以幫助改進當今最先進的大型語言模型。

報道稱，出版業(yè)高管們一直在調查：他們的內容在多大程度上被用來培訓 ChatGPT 和其他人工智能工具？他們認為應該如何獲得補償？以及他們可以用哪些法律來捍衛(wèi)自己的權利？不過，該組織的總法律顧問丹妮爾?科菲 (Danielle Coffey) 表示，到目前為止，還沒有與任何大型人工智能聊天引擎的所有者（如谷歌、OpenAI、微軟等）達成任何協議，讓他們?yōu)樽ト∽孕侣劽襟w聯盟成員的部分訓練數據付費。

推特沒有回復置評請求。微軟拒絕置評。谷歌的一位發(fā)言人表示：“長期以來，我們一直在幫助創(chuàng)作者和出版商將其內容貨幣化，并加強與受眾的關系。按照我們的人工智能原則，我們將繼續(xù)以負責任的、合乎道德的方式進行創(chuàng)新。”該發(fā)言人還說，“現在仍處于早期階段”，對于如何構建有利于開放網絡的人工智能，谷歌正在征求有關意見。

法律和道德泥潭

在某些情況下，復制開放網絡上可用的數據（也被稱為抓?。┦呛戏ǖ?，盡管公司仍在就如何以及在何時被允許這么做的細節(jié)上爭論不休。

大多數公司和組織愿意將他們的數據放在網上，是因為他們希望這些數據被搜索引擎發(fā)現并編制索引，這樣便于人們找到這些內容。然而，復制這些數據來訓練人工智能，以取代尋找原始來源的需要，這是完全不同的。

計算語言學家本德爾表示，那些從網絡上收集信息來培訓人工智能的科技公司的運營原則是：“我們可以接受它，因此它是我們的”。將文本（包括書籍、雜志文章、個人博客上的隨筆、專利、科學論文以及維基百科內容）轉化為聊天機器人的答案會去除材料的來源鏈接。這也會讓用戶更難核實機器人告訴他們的內容。對于經常說謊的系統來說，這是一個大問題。

這些大規(guī)模信息抓取還會竊取我們的個人信息。Common Crawl 是一個非營利性組織，十多年來一直在抓取開放網絡上的大量內容，并將其數據庫免費提供給研究人員。Common Crawl 的數據庫也被用作希望培訓人工智能的公司的起點，包括谷歌、Meta、OpenAI 和其他公司。

塞巴斯蒂安?內格爾（Sebastian Nagel）是 Common Crawl 的數據科學家和工程師，他表示，你幾年前寫的一篇博客文章，雖然后來被刪除，但可能仍然存在于 OpenAI 使用的訓練數據中，該公司使用多年前的網絡內容來訓練其人工智能。

本德爾表示，與谷歌和微軟擁有的搜索索引不同，從訓練有素的人工智能中刪除個人信息需要對整個模型進行重新培訓。道奇也稱，由于重新訓練一個大型語言模型的成本可能非常高，即使用戶能夠證明個人數據被用來訓練人工智能，公司也不太可能這樣做。由于所需的巨大計算能力，這類模型的訓練成本高達數千萬美元。

但道奇補充說，在大多數情況下，也很難讓接受過包括個人信息數據集訓練的人工智能反芻這些信息。OpenAI 表示，它已經調整了基于聊天的系統，以拒絕提供個人信息的請求。歐盟和美國政府正在考慮監(jiān)管這類人工智能的新法律法規(guī)。

問責制和利潤分享

有些人工智能的支持者認為，人工智能應該獲得他們的工程師可以獲得的所有數據，因為這是人類學習的方式。從邏輯上講，為什么機器不應該這樣做呢？

本德爾表示，拋開人工智能目前和人類還不一樣這一點，上述觀點存在一個問題，即根據現行法律，人工智能不能為自己的行為負責。抄襲他人作品的人，或試圖將錯誤信息重新包裝為真相的人，可能會面臨嚴重后果，但機器和它的創(chuàng)造者則不承擔同樣的責任。

無數人寫的那些個人隨筆，以及在默默無聞的論壇和已經消失的社交網絡上發(fā)布的帖子，還有其他各種各樣的東西，真的能讓現今的聊天機器人變得寫作能力一樣好嗎？這些內容的創(chuàng)造者能從中獲得的唯一好處，也許只是他們在使用語言方面為培養(yǎng)聊天機器人做出了一些貢獻。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：聊天機器人，人工智能

聊天機器人正在消化互聯網，而互聯網希望拿到回報

翻譯內容如下：

法律和道德泥潭

問責制和利潤分享

相關文章

聊天機器人正在消化互聯網，而互聯網希望拿到回報