4 月 20 日消息,過去四個月,人工智能聊天機器人變得越來越受歡迎,它們能夠完成各種任務,比如寫復雜的學術論文和進行緊張的對話,能力很令人驚嘆。
聊天機器人并不像人類那樣思考,它們甚至不知道自己在說什么。它們之所以能模仿人類的語言,是因為驅(qū)動它們的人工智能已經(jīng)吸收了大量的文本,其中大部分內(nèi)容是從互聯(lián)網(wǎng)上抓取的。
這些文本是人工智能在構建過程中獲取世界信息的主要來源,它們會對人工智能的響應方式產(chǎn)生深遠影響。如果人工智能在司法考試中取得了優(yōu)異成績,那可能是因為它的訓練數(shù)據(jù)中包含了數(shù)以千計的 LSAT(Law School Admission Test,美國法學院入學申請考試)資料。
科技公司對他們向人工智能提供了哪些信息始終保密。因此,《華盛頓郵報》開始分析其中一個重要數(shù)據(jù)集,徹底揭示了用于訓練 AI 的專有、個人和常常具有攻擊性的網(wǎng)站類型。
為了探究人工智能訓練數(shù)據(jù)的內(nèi)部構成,《華盛頓郵報》與艾倫人工智能研究所的研究人員合作,對谷歌的 C4 數(shù)據(jù)集進行了分析。這個數(shù)據(jù)集是一個包含 1500 多萬個網(wǎng)站的海量快照,這些網(wǎng)站內(nèi)容被用來訓練許多備受關注的英語人工智能,例如谷歌的 T5 和 Facebook 的 LLaMA。而 OpenAI 沒有透露他們使用了什么樣的數(shù)據(jù)集來訓練支持聊天機器人 ChatGPT 的模型。
在這項調(diào)查中,研究人員使用網(wǎng)絡分析公司 Similarweb 的數(shù)據(jù)對網(wǎng)站進行了分類。其中大約三分之一的網(wǎng)站無法進行分類而被排除,主要是因為它們已經(jīng)不再存在于互聯(lián)網(wǎng)上。接著,研究人員根據(jù)數(shù)據(jù)集中每個網(wǎng)站出現(xiàn)的“token”數(shù)量,對剩下的 1000 萬個網(wǎng)站進行了排名。token 是處理信息的小段文本,通常是一個單詞或短語,用于訓練 AI 模型。
從維基百科到 WoWhead
C4 數(shù)據(jù)集的網(wǎng)站主要來自新聞、娛樂、軟件開發(fā)、醫(yī)療和內(nèi)容創(chuàng)作等行業(yè)。這可以解釋為什么這些領域可能受到新一波人工智能的威脅。排名前三的網(wǎng)站分別是:第一名是谷歌專利搜索,它包含世界各地發(fā)布的專利文本;第二名是維基百科;第三名是只接受付費訂閱的數(shù)字圖書館 Scribd。此外,排名靠前的其他網(wǎng)站還有盜版電子書市場 Library(第 190 位),這個網(wǎng)站因非法行為被美國司法部查封。此外,數(shù)據(jù)集中還存在至少 27 個被美國政府認定為盜版和假冒產(chǎn)品市場的網(wǎng)站。
還有一些頂級網(wǎng)站也出現(xiàn)在其中,例如《魔獸世界》玩家論壇 wowhead(第 181 位),以及阿里安娜?赫芬頓(Arianna Huffington)創(chuàng)立的用于幫助緩解職業(yè)倦怠的網(wǎng)站 thriveglobal(第 175 位)。此外,還有至少 10 個出售垃圾箱的網(wǎng)站,包括 dumpsteroid(第 183 位),但它似乎已經(jīng)無法訪問。
雖然大部分網(wǎng)站都是安全的,但有些網(wǎng)站存在嚴重的隱私問題。例如,有兩個排名進入前 100 位的網(wǎng)站,都私下承載了州選民登記數(shù)據(jù)庫的副本。雖然選民數(shù)據(jù)是公開的,但這些模型可能會以未知的方式使用這些個人信息。
工商業(yè)網(wǎng)站占據(jù)了最大的類別(占分類 token 的 16%)。排名第一的是提供投資建議的 The Motley Fool(第 13 位)。其次是允許用戶為創(chuàng)意項目進行眾籌的 Kickstarter 網(wǎng)站(第 25 位)。而排名較后的 Patreon 位列第 2398,該網(wǎng)站幫助創(chuàng)作者從訂閱者那里收取每月費用以獲得獨家內(nèi)容。
然而,Kickstarter 和 Patreon 可能會讓人工智能獲取藝術家的想法和營銷文案,人們擔憂 AI 可能會在向用戶提供建議時復制這些作品。目前,藝術家的作品被包括在人工智能培訓數(shù)據(jù)中時,他們不會得到任何補償,他們已經(jīng)向文本轉圖像生成器 Stable Diffusion、MidJourney 和 DeviantArt 提出了侵權索賠。
根據(jù)這次《華盛頓郵報》的分析,更多的法律挑戰(zhàn)可能即將到來:C4 數(shù)據(jù)集中有超過 2 億次出現(xiàn)版權符號(表示注冊為知識產(chǎn)權的作品)。
技術網(wǎng)站是第二大類別,占分類 token 的 15%。這包括許多平臺,它們幫助人們建立網(wǎng)站,比如谷歌協(xié)作平臺(第 85 位),它的頁面涵蓋了從英格蘭雷丁柔道俱樂部到新澤西州幼兒園的各種內(nèi)容。
C4 數(shù)據(jù)集還包含了 50 多萬個個人博客,占分類內(nèi)容的 3.8%。發(fā)布平臺 Medium 排名第 46 位,是第五大科技網(wǎng)站,在其域名下?lián)碛袛?shù)萬個博客。此外,還有在 WordPress、Tumblr、Blogpot 和 Live Journal 等平臺上撰寫的博客。
這些博客形式多樣,從職業(yè)到個人都有,比如一篇名為“Grumpy Rumblings”的博客,由兩位匿名的學者共同撰寫,其中一位最近寫到了他們的伴侶失業(yè)是如何影響了夫妻的稅收。此外,C4 數(shù)據(jù)集中還有一些專注于真人角色扮演游戲的頂級博客。
社交網(wǎng)絡如 Facebook 和 Twitter 等(它們被視為現(xiàn)代網(wǎng)絡的核心)的內(nèi)容被禁止抓取,這意味著用于訓練人工智能的大多數(shù)數(shù)據(jù)集都無法訪問它們。Facebook 和谷歌等科技巨頭坐擁海量對話數(shù)據(jù),但他們還不清楚如何使用個人用戶信息來訓練內(nèi)部使用或作為產(chǎn)品銷售的人工智能模型。
新聞和媒體網(wǎng)站是所有類別中排名第三,而前十位網(wǎng)站中有半數(shù)是新聞媒體:《紐約時報》網(wǎng)站排名第四,《洛杉磯時報》網(wǎng)站排名第六,《衛(wèi)報》網(wǎng)站排名第七,《福布斯》網(wǎng)站排在第八位,《赫芬頓郵報》網(wǎng)站排名第九,《華盛頓郵報》網(wǎng)站排名第 11 位。與藝術家和創(chuàng)作者一樣,多家新聞機構也批評科技公司在未經(jīng)授權或提供補償?shù)那闆r下使用他們的內(nèi)容。
與此同時,《華盛頓郵報》還發(fā)現(xiàn)有幾家媒體在 NewsGuard 的獨立可信度評級中排位較低:比如俄羅斯 RT(第 65 位)、極右翼新聞網(wǎng)站 breitbart(第 159 位)以及與白人至上主義有關的反移民網(wǎng)站 vdare(第 993 位)。
聊天機器人已經(jīng)被證明可以分享錯誤信息。不可信的訓練數(shù)據(jù)可能導致它們傳播偏見、宣傳錯誤信息,而用戶卻無法追蹤到它們的原始來源。
社區(qū)網(wǎng)站約占分類內(nèi)容的 5%。
過濾器漏網(wǎng)之魚有哪些?
像大多數(shù)公司一樣,谷歌在將數(shù)據(jù)提供給人工智能之前,會對數(shù)據(jù)進行過濾和篩查。除了去除無意義和重復的文字外,該公司還使用了開源的“不良詞匯列表”,其中包括 402 個英文術語和一個表情符號。公司通常使用高質(zhì)量的數(shù)據(jù)集來微調(diào)模型,從而屏蔽用戶不想看到的內(nèi)容。
雖然這類列表旨在限制模型在接受培訓時受到種族誹謗和不良內(nèi)容的影響,但很多東西都通過了過濾器的篩查。《華盛頓郵報》發(fā)現(xiàn)了數(shù)百個色情網(wǎng)站和超過 7.2 萬個“納粹”例子,它們都在禁用詞匯列表中。
與此同時,《華盛頓郵報》發(fā)現(xiàn),這些過濾器未能刪除某些令人不安的內(nèi)容,包括白人至上主義網(wǎng)站、反跨性別網(wǎng)站以及以組織針對個人騷擾活動而聞名的匿名留言板 4chan。研究中還發(fā)現(xiàn)了宣傳陰謀論的網(wǎng)站。
你的網(wǎng)站有沒有用于訓練 AI?
網(wǎng)絡抓取聽上去可能像是對整個互聯(lián)網(wǎng)進行復制,但實際上它只是收集快照,即對特定時刻的網(wǎng)頁樣本抓取內(nèi)容。C4 數(shù)據(jù)集最初是由非營利組織 CommonCrawl 創(chuàng)建的,于 2019 年 4 月進行網(wǎng)絡內(nèi)容抓取,是人工智能模型訓練的熱門資源。CommonCrawl 表示,該組織試圖優(yōu)先考慮最重要和聲譽最好的網(wǎng)站,但沒有試圖避免授權或版權保護的內(nèi)容。
《華盛頓郵報》認為,將數(shù)據(jù)的完整內(nèi)容呈現(xiàn)在人工智能模型中至關重要,這些模型有望管理人們現(xiàn)代生活的許多方面。然而,這個數(shù)據(jù)集中的許多網(wǎng)站包含高度攻擊性語言,即使模型訓練時盡量掩蓋這些詞語,令人反感的內(nèi)容仍然可能會存在。
專家表示,盡管 C4 數(shù)據(jù)集很龐大,但大型語言模型可能會使用更大的數(shù)據(jù)集。例如,OpenAI 在 2020 年發(fā)布了 GPT-3 訓練數(shù)據(jù),其數(shù)據(jù)量是 C4 中網(wǎng)絡抓取數(shù)據(jù)量的 40 倍。GPT-3 的培訓數(shù)據(jù)包括所有英文維基百科、大型科技公司經(jīng)常使用的、未出版作家的免費小說集以及 Reddit 用戶高度評價的鏈接文本匯編。
專家表示,許多公司甚至沒有記錄培訓數(shù)據(jù)的內(nèi)容(甚至是內(nèi)部數(shù)據(jù)),因為擔心發(fā)現(xiàn)有關可識別身份的個人信息、受版權保護的材料和其他未經(jīng)同意被竊取的數(shù)據(jù)。隨著公司強調(diào)解釋聊天機器人如何做出決策面臨的挑戰(zhàn),這是高管們需要給出透明答案的領域。
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。