你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

新智元 2024/4/7 13:36:43 責(zé)編：遠(yuǎn)洋

評論：

新智元報道

編輯：Aeneas 好困

【新智元導(dǎo)讀】2026 年的數(shù)據(jù)荒越來越近，硅谷大廠們已經(jīng)為 AI 訓(xùn)練數(shù)據(jù)搶瘋了！它們紛紛豪擲十?dāng)?shù)億美元，希望把犄角旮旯里的照片、視頻、聊天記錄都給挖出來。不過，如果有一天 AI 忽然吐出了我們的自拍照或者隱私聊天，該怎么辦？

誰能想到，我們多年前的聊天記錄、社交媒體上的陳年照片，忽然變得價值連城，被大科技公司爭相瘋搶。

現(xiàn)在，硅谷大廠們已經(jīng)紛紛出動，買下所有能購買版權(quán)的互聯(lián)網(wǎng)數(shù)據(jù)，這架勢簡直要搶破頭了！

圖像托管網(wǎng)站 Photobucket 的陳年舊數(shù)據(jù)，本來已經(jīng)多年無人問津，但如今，它們正在被各大互聯(lián)網(wǎng)公司瘋搶，用來訓(xùn)練 AI 模型。

為此，科技巨頭們愿意拿出實(shí)打?qū)嵉恼娼鸢足y。比如，每張照片價值 5 美分到 1 美元，每個視頻價值超過 1 美元，具體情況取決于買家和素材種類。

總之，為了購買 AI 訓(xùn)練數(shù)據(jù)，巨頭們已經(jīng)展開了一場地下競賽！

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

而最近鬧得轟轟烈烈的 Meta 圖像生成器大翻車事件，更是讓 AI 的訓(xùn)練數(shù)據(jù)「刻板印象」暴露無遺。

如果喂給模型的數(shù)據(jù)無法改變「偏見」，那各大公司要遭遇的輿論風(fēng)波，只怕少不了。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

Meta 的 AI 生圖工具畫不出來「亞洲男性和白人妻子」或「亞洲女性和白人丈夫」

巨頭狂砸數(shù)十億美元，只為買到數(shù)據(jù)「黃金」

根據(jù)路透社報道，在 2000 年代，Photobucket 處于巔峰期，擁有 7000 萬用戶。而今天，這家頂級網(wǎng)站的用戶已經(jīng)驟降到了 200 萬人。

但生成式 AI，給這家公司帶來了新生。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

CEO Ted Leonard 開心地透露，目前已經(jīng)有多家科技公司找上門來，愿意重金購買公司的 130 億份照片和視頻。

目的，當(dāng)然就是訓(xùn)練 AI。

為了得到這些數(shù)據(jù)，各大公司都非常舍得割肉。

而且，他們還想要更多！據(jù)說，一位買家表示，自己想要超過 10 億個視頻，而這，已經(jīng)遠(yuǎn)遠(yuǎn)超出了 Photobucket 能提供的數(shù)量。

據(jù)粗略估計，Photobucket 手中握著的數(shù)據(jù)，很可能價值數(shù)十億美元。

OpenAI 陷起訴風(fēng)波，版權(quán)太敏感了

現(xiàn)在眼看著，大家的數(shù)據(jù)都不夠用了。

根據(jù) Epoch 研究所的分析，到 2026 年，科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù)，因為他們消耗數(shù)據(jù)的速度，遠(yuǎn)遠(yuǎn)超過了數(shù)據(jù)的生成速度！

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

訓(xùn)練 ChatGPT 的數(shù)據(jù)，是從互聯(lián)網(wǎng)上免費(fèi)抓取的。Sora 的訓(xùn)練數(shù)據(jù)來源不詳，CTO Murati 接受采訪時支支吾吾的表現(xiàn)，險些又讓 OpenAI 大翻車。

雖然 OpenAI 表示，自己的做法完全合法，但前方還有一堆版權(quán)訴訟在等著他們。而其他大科技公司都跟著學(xué)乖了，大家都在悄悄地為付費(fèi)墻和登錄屏幕背后的鎖定內(nèi)容付費(fèi)。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

如今，無論是陳舊的聊天記錄，還是被遺忘的社交媒體上褪色的舊照片，忽然都變成了價值連城的東西。而各大公司已經(jīng)紛紛出動，急于尋找版權(quán)所有者的授權(quán)。畢竟，私人收藏的東西，是無法抓取的。

外媒記者走訪了 30 多名專業(yè)人士，發(fā)現(xiàn)這背后隱藏的，是一個黃金市場。

雖然很多公司對于這個不透明的 AI 市場規(guī)模表示緘默，但 Business Research Insights 等研究人員認(rèn)為，目前市場規(guī)模約為 25 億美元，并預(yù)測十年內(nèi)可能會增長近 300 億美元。

生成數(shù)據(jù)淘金熱，讓數(shù)據(jù)商樂開花

對科技公司來說，如果不能使用免費(fèi)抓取的網(wǎng)頁數(shù)據(jù)檔案，比如 Common Crawl，那成本會是一個很可怕的數(shù)字。

但是一連串版權(quán)訴訟和監(jiān)管熱潮，已經(jīng)讓他們別無選擇。甚至，硅谷已經(jīng)出現(xiàn)了一個新興的行業(yè) —— 數(shù)據(jù)經(jīng)紀(jì)人。而圖片、視頻供應(yīng)商們，也隨之賺得盆滿缽滿。

手快的公司，早就反應(yīng)過來了。ChatGPT 在 2022 年底亮相的幾個月內(nèi)，Meta、谷歌、亞馬遜和蘋果就已經(jīng)迅速和圖片庫提供商 Shutterstock 達(dá)成協(xié)議，使用庫中的數(shù)億份圖像、視頻和音樂文件進(jìn)行訓(xùn)練。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

根據(jù)首席財務(wù)官透露的數(shù)據(jù)，這些交易從 2500 萬美元到 5000 萬美元不等。

而 Shutterstock 的競爭對手 Freepik，也已經(jīng)有了兩位大買家，2 億張圖片檔案中的大部分，會以 2 至 4 美分的價格授權(quán)。

OpenAI 當(dāng)然也不會落后，它不僅是 Shutterstock 的早期客戶，還與包括美聯(lián)社在內(nèi)的至少四家新聞機(jī)構(gòu)簽署了許可協(xié)議。

讓內(nèi)容「合乎道德」

同時興起的，還有 AI 數(shù)據(jù)定制行業(yè)。

這批公司獲得了與播客、短視頻和與數(shù)字助理互動等現(xiàn)實(shí)世界內(nèi)容的授權(quán)，同時還建立了短期合同工網(wǎng)絡(luò)，從頭開始定制視覺效果和語音樣本。

作為代表之一的 Defined.ai，已經(jīng)把自己的內(nèi)容賣給了谷歌、Meta、蘋果、亞馬遜、微軟等多家科技大廠。

其中，一張圖片賣 1 到 2 美元，一部短視頻賣 2 到 4 美元，一部長片每小時可以賣到 100 到 300 美元，文本的市價則是每字 0.001 美元。

而比較麻煩的裸體圖像，售價為 5 到 7 美元，因為還需要后期處理。

而這些照片、播客和醫(yī)療數(shù)據(jù)的所有者，也會獲得總交易額 20% 至 30% 的費(fèi)用。

一位巴西數(shù)據(jù)商表示，為了獲得犯罪現(xiàn)場、沖突暴力和手術(shù)的圖像，他需要從警察、自由攝影記者和醫(yī)學(xué)生手里去買。

他補(bǔ)充說，他的公司雇用了習(xí)慣于看到暴力傷害的護(hù)士來脫敏和標(biāo)注這些圖像，這對未經(jīng)訓(xùn)練的眼睛來說是令人不安的。

而將圖像脫敏、標(biāo)注的工作，則交給慣于看到暴力傷害的護(hù)士，畢竟未經(jīng)訓(xùn)練的人眼看到這些圖像，會很不安。

然而，這些 AI 模型的「燃料」，很可能會引發(fā)嚴(yán)重的問題，比如 —— 吐出用戶隱私。

專家發(fā)現(xiàn)，AI 會反芻訓(xùn)練數(shù)據(jù)，比如，它們會吐出 Getty Images 水印，逐字輸出紐約時報文章的段落，甚至再現(xiàn)真人圖像。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

Getty Images 指責(zé) Stability AI「以驚人的規(guī)模肆無忌憚地侵犯它的知識產(chǎn)權(quán)」

也就是說，幾十年前某人發(fā)布的私人照片或私密想法，很可能在不知情的情況下，被 AI 模型原樣吐了出來！

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

這次「ChatGPT 在回復(fù)中泄露陌生男子自拍照事件」，讓大家頗為恐慌

這些隱患，目前還沒有有效方法解決。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

調(diào)查顯示，用戶愿意每月多付 1 美元，讓自己的個人數(shù)據(jù)不被第三方使用

Altman，也看上了合成數(shù)據(jù)

另外，Sam Altman 也早看到了合成數(shù)據(jù)的未來。

這些數(shù)據(jù)不是人類直接創(chuàng)造的，而是由 AI 模型生成的文本、圖像和代碼，也就是說，這些系統(tǒng)通過學(xué)習(xí)自己產(chǎn)生的內(nèi)容來進(jìn)步。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

既然 AI 能創(chuàng)造出接近人類的文本，當(dāng)然也就能自產(chǎn)自銷，幫自己進(jìn)化成更先進(jìn)的版本。

只要我們能夠跨過合成數(shù)據(jù)的關(guān)鍵閾值，即讓模型能夠自主創(chuàng)造出高質(zhì)量的合成數(shù)據(jù)，那么一切問題都將迎刃而解。
——Sam Altman

不過，這件事真的這么容易嗎？

人工智能研究者們已經(jīng)研究合成數(shù)據(jù)多年，但要構(gòu)建一個能自我訓(xùn)練的人工智能系統(tǒng)并非易事。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

專家發(fā)現(xiàn)，模型如果只依賴于自我生成的數(shù)據(jù)，可能會不斷重復(fù)自己的錯誤和局限，陷入一個自我加強(qiáng)的循環(huán)中。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

這些系統(tǒng)所需的數(shù)據(jù)，就像是在叢林中尋找一條路徑，如果它們僅僅依賴于合成數(shù)據(jù)，就可能在叢林里迷路。
—— 前 OpenAI 研究員、現(xiàn)任不列顛哥倫比亞大學(xué)計算機(jī)科學(xué)教授 Jeff Clune

對此，OpenAI 正在探索如何讓兩個不同的人工智能模型協(xié)作，共同生成更高質(zhì)量、更可靠的合成數(shù)據(jù)。其中一個負(fù)責(zé)生成數(shù)據(jù)，另一個則負(fù)責(zé)評估。

這種方法是否有效，還未可知。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

「規(guī)?！笽s All You Need

數(shù)據(jù)為什么對 AI 模型這么重要？這要從下面這篇論文說起。

2020 年 1 月，約翰斯?霍普金斯大學(xué)的理論物理學(xué)家 Jared Kaplan 與 9 位 OpenAI 研究人員共同發(fā)表了一篇具有里程碑意義的人工智能論文。

他們得出了一個明確的結(jié)論：訓(xùn)練大語言模型所用的數(shù)據(jù)越多，其性能就越好。

正如一個學(xué)生通過閱讀更多書籍能學(xué)到更多知識一樣，大語言模型能通過更多的信息更精確地識別文本模式。

很快，「只要規(guī)模足夠大，一切就皆有可能」便成為了 AI 領(lǐng)域的共識。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

論文地址：https://arxiv.org/ abs / 2001.08361

2020 年 11 月，OpenAI 推出的 GPT-3，便利用了當(dāng)時最為龐大的數(shù)據(jù)進(jìn)行訓(xùn)練 —— 約 3000 億個 token。

在吸收了這些數(shù)據(jù)后，GPT-3 展現(xiàn)出了驚人的文本生成能力 —— 它不僅可以撰寫博客文章、詩歌，甚至還能編寫自己的計算機(jī)程序。

但如今看來，這個數(shù)據(jù)集的規(guī)模就顯得相當(dāng)小了。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

到了 2022 年，DeepMind 將訓(xùn)練數(shù)據(jù)直接拉到了 1.4 萬億個 token，比 Kaplan 博士在論文中預(yù)測的還要多。

然而，這一記錄并未保持太久。

2023 年，谷歌發(fā)布的 PaLM 2，在訓(xùn)練 token 上更是達(dá)到了 3.6 萬億 —— 幾乎是牛津大學(xué)博德利圖書館自 1602 年以來收集手稿數(shù)量的兩倍。

為訓(xùn) GPT-4，OpenAI 白嫖 100 萬 + 小時 YouTube 視頻

但正如 OpenAI 的 CEO Sam Altman 所說，AI 終究會消耗完互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)資源。

這不是預(yù)言，也不是危言聳聽 —— 因為 Altman 本人就曾親眼目睹過它的發(fā)生。

在 OpenAI，研究團(tuán)隊多年來一直在收集、清理數(shù)據(jù)，并將其匯集成巨大的文本庫，用以訓(xùn)練公司的語言模型。

他們從 GitHub 這個計算機(jī)代碼庫中提取信息，收集了國際象棋走法的數(shù)據(jù)庫，并利用 Quizlet 網(wǎng)站上關(guān)于高中考試和作業(yè)的數(shù)據(jù)。

然而，到了 2021 年底，這些數(shù)據(jù)資源已經(jīng)耗盡。

為了下一代 AI 模型的開發(fā)，總裁 Brockman 決定親自披掛上陣。在他的帶領(lǐng)下，團(tuán)隊開發(fā)出了一款全新名的語音識別工具 Whisper，可以快速準(zhǔn)確地轉(zhuǎn)錄播客、有聲讀物和視頻。

有了 Whisper 之后，OpenAI 很快便轉(zhuǎn)錄了超過 100 萬小時的 YouTube 視頻，而 Brockman 更是親自參與到了收集工作當(dāng)中。

最終的故事大家都知道了，在如此高質(zhì)量數(shù)據(jù)的加持下，地表最強(qiáng)的 GPT-4 橫空出世。

谷歌：我也一樣

有趣的是，谷歌其實(shí)早就知道 OpenAI 在利用 YouTube 視頻收集數(shù)據(jù)，但從未想過要出面阻止。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

你猜的沒錯，谷歌也在利用 YouTube 視頻來訓(xùn)練自家的 AI 模型。

而如果要對 OpenAI 的行為大加指責(zé)，他們不僅會暴露自己，甚至還會引發(fā)公眾更加強(qiáng)烈的反應(yīng)。

不僅如此，那些儲存在 Google Docs、Google Sheets 等應(yīng)用里的數(shù)十億文字?jǐn)?shù)據(jù)，也是谷歌的目標(biāo)。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

2023 年 6 月，谷歌的法律部門要求隱私團(tuán)隊修改服務(wù)條款，從而擴(kuò)展公司對消費(fèi)者數(shù)據(jù)的使用權(quán)限。

也就是，為公司能夠利用用戶公開分享的內(nèi)容開發(fā)一系列的 AI 產(chǎn)品，鋪平道路。

據(jù)員工透露，他們被明確指示要在 7 月發(fā)布新的條款，因為那時大家的注意力都在即將到來的假期上。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

7 月 1 日發(fā)布的新條款不僅允許谷歌使用這些數(shù)據(jù)開發(fā)語言模型，還能用于創(chuàng)建像 Google Translate、Bard 和 Cloud AI 等廣泛的 AI 技術(shù)和產(chǎn)品

Meta 數(shù)據(jù)不足，高管被迫天天開會

同樣在追趕 OpenAI 的，還有 Meta。

為了能夠超越 ChatGPT，小扎不分晝夜地催促公司的高管和工程師加快開發(fā)一個能與之競爭的聊天機(jī)器人。

然而，到了去年年初，Meta 也遇到了和其他競爭者一樣的難題 —— 數(shù)據(jù)不足。

盡管 Meta 掌管著龐大的社交網(wǎng)絡(luò)資源，但不僅用戶沒有保留帖子的習(xí)慣（很多人會刪除自己之前的發(fā)布），而且 Facebook 畢竟也不是一個大家習(xí)慣發(fā)高質(zhì)量長文的地方。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

此前，小扎曾自豪聲稱 Meta Platforms 的訪問數(shù)據(jù)，是 Meta AI 的一大優(yōu)勢

生成式 AI 副總裁 Ahmad Al-Dahle 向高層透露，為了開發(fā)出一個模型，他的團(tuán)隊幾乎利用了網(wǎng)絡(luò)上所有可找到的英文書籍、論文、詩歌和新聞文章。

但這些還遠(yuǎn)遠(yuǎn)不夠。

2023 年 3 月到 4 月，公司的商務(wù)發(fā)展負(fù)責(zé)人、工程師和律師幾乎每天都在密集會議，試圖找到解決方案。

他們考慮了為獲取新書的完整版權(quán)支付每本 10 美元的可能性，并討論了收購出版了斯蒂芬?金等作者作品的 Simon & Schuster 的想法。

與此同時，他們還討論了未經(jīng)允許就對網(wǎng)絡(luò)上的書籍、論文等作品進(jìn)行摘要的做法，并考慮進(jìn)一步「吸收」更多內(nèi)容，哪怕這可能招致法律訴訟。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

好在，作為行業(yè)標(biāo)桿的 OpenAI，就在未經(jīng)授權(quán)的情況下使用了版權(quán)材料，而 Meta 或許可以參考這一「市場先例」。

根據(jù)錄音，Meta 的高管們決定借鑒 2015 年作家協(xié)會（Authors Guild）對谷歌的法庭判決。

在那個案例中，谷歌被允許掃描、數(shù)字化并在在線數(shù)據(jù)庫中編目書籍，因為它僅在線上復(fù)制了作品的一小部分，并且改變了原作，這被認(rèn)定為合理使用。

在會議中，Meta 的律師們表示，用數(shù)據(jù)訓(xùn)練人工智能系統(tǒng)應(yīng)當(dāng)同樣被視為合理使用。

但即便如此，Meta 似乎還是沒攢夠數(shù)據(jù)……

AI 生圖工具拒絕「白人和亞洲人」合影

最近，外媒 The Verge 的記者在多次嘗試后發(fā)現(xiàn)，Meta 的 AI 圖像生成工具并不能創(chuàng)建一張東亞男性和白人女性同框的圖片。

不管 prompt 是「亞洲男性與白人朋友」、「亞洲男性與白人妻子」、「亞洲女性與白人丈夫」，還是經(jīng)過魔改的「一位亞洲男性和一位白人女性帶著狗微笑」，都于事無補(bǔ)。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

當(dāng)他將「白人」改為「高加索人」時，結(jié)果依舊如此。

比如「亞洲男性和高加索女性的婚禮日」這個 prompt，得到的卻是一張身穿西裝的亞洲男性與身著旗袍 / 和服混搭的亞洲女性的圖像……

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

AI 居然難以想象亞洲人與白人并肩而立的場景，這著實(shí)有些匪夷所思。

而且，在生成的內(nèi)容中，還隱藏著更加微妙的偏見。

舉個例子，Meta 總是將「亞洲女性」描繪成東亞面孔，似乎忽略了印度作為世界上人口最多國家的事實(shí)。與此同時，「亞洲男性」多為年長者，而亞洲女性卻總是年輕化。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

相比之下，OpenAI 加持的 DALL-E 3，就完全沒有這個問題。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

對此，有網(wǎng)友指出，出現(xiàn)這個問題的原因是 Meta 在模型訓(xùn)練時沒有輸入足夠多的場景示例。

簡而言之，問題不在于代碼本身，而在于模型訓(xùn)練時所使用的數(shù)據(jù)集不夠豐富，沒有充分覆蓋所有可能的場景。

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

但更深層次的是，AI 的行為是其創(chuàng)造者偏見的體現(xiàn)。

在美國媒體中，「亞洲人」通常就是指東亞人，不符合這一單一形象的亞洲人幾乎從文化意識中被抹去，即便是符合的人也在主流媒體中被邊緣化。

而這，只是因數(shù)據(jù)造成的 AI 偏見的一隅而已。

參考資料：

https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

你的自拍和聊天記錄，正被硅谷大廠砸數(shù)十億美元瘋搶

巨頭狂砸數(shù)十億美元，只為買到數(shù)據(jù)「黃金」

OpenAI 陷起訴風(fēng)波，版權(quán)太敏感了

生成數(shù)據(jù)淘金熱，讓數(shù)據(jù)商樂開花

「規(guī)?！笽s All You Need

為訓(xùn) GPT-4，OpenAI 白嫖 100 萬 + 小時 YouTube 視頻

谷歌：我也一樣

Meta 數(shù)據(jù)不足，高管被迫天天開會

AI 生圖工具拒絕「白人和亞洲人」合影

相關(guān)文章

巨頭狂砸數(shù)十億美元，只為買到數(shù)據(jù)「黃金」

「規(guī)?！笽s All You Need

為訓(xùn) GPT-4，OpenAI 白嫖 100 萬 + 小時 YouTube 視頻

Meta 數(shù)據(jù)不足，高管被迫天天開會