首頁 > 科學(xué)探索>科技前沿

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

量子位 2023/7/10 12:25:06 責(zé)編：夢澤

評論：

從今往后，你在網(wǎng)上公開說的每一句話，都可能被谷歌拿去訓(xùn)練 AI！

沒錯，繼畫畫之后，文字作品也要被用來喂大模型了 ——

無論是技術(shù)博客、代碼、論文，還是所有你在網(wǎng)上公開的帖子，都可能被扔進“谷歌大模型攪拌機”，即使有版權(quán)也是如此。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

就在這周，谷歌更新了一版隱私政策，明確表示他們保留有抓取網(wǎng)上所有公開內(nèi)容，以構(gòu)建其 AI 工具的權(quán)利。

網(wǎng)友們立刻炸了。有人警告“谷歌正抓取一切”：

一旦谷歌能夠讀取你寫的東西，就意味著這些都是他們的“所有物”了。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

還有網(wǎng)友抱持更悲觀的想法：

很快啊，所有內(nèi)容產(chǎn)出者就都會是 AI 了。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

所以，這版隱私政策究竟是怎么回事？

用于訓(xùn)練 Bard 等 AI 產(chǎn)品

事情還得從谷歌這幾天更新的隱私政策說起。

在最新的隱私權(quán)政策中，谷歌增加了一個關(guān)于“研究和開發(fā)”的 AI 模型條款：

Google 會利用信息來改進我們的服務(wù)并開發(fā)新的產(chǎn)品、功能和技術(shù)，以惠及我們的用戶和公眾。
例如，我們會利用公開信息來幫助訓(xùn)練 Google 的 AI 模型并打造實用產(chǎn)品和功能（比如 Google 翻譯、Bard 和 Cloud AI 功能）。

換言之，就是將所有可能收集到的公開信息，用在谷歌翻譯、Bard 和 Cloud AI 等 AI 相關(guān)產(chǎn)品或功能的訓(xùn)練中。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

那么，這些公開信息具體包括什么？

例如互聯(lián)網(wǎng)、網(wǎng)絡(luò)和其他活動信息，包括搜索字詞、應(yīng)用和瀏覽器與谷歌服務(wù)進行互動的相關(guān)信息，以及在第三方網(wǎng)站和應(yīng)用中使用谷歌服務(wù)等。

換而言之，不止是此前已經(jīng)公開的博客等內(nèi)容，包括公開到網(wǎng)上的谷歌文檔、或是一些包含個人信息的發(fā)帖，也可能會被谷歌收集起來，用于大模型訓(xùn)練。

當(dāng)然，目前這些內(nèi)容都還限定在“公開信息”。

像谷歌提供的 Gmail 等電子郵件服務(wù)，應(yīng)該還是不會被爬進數(shù)據(jù)里的。

而且谷歌也明確在隱私權(quán)政策中表示，在其他如防范安全威脅、信息審核、服務(wù)維護、個性化廣告或法律等原因情況下，同樣可以使用這些個人或公開信息。

不過，谷歌為啥在這個節(jié)骨眼更新這個政策？

“AI 正挑戰(zhàn)文字版權(quán)”

或許也與 Reddit 和推特等一眾公司搞出的“限流”操作有關(guān)。

先是今年 4 月，Reddit 宣布對接入 API 的公司開始收費。

公司 CEO 認為，Reddit 的數(shù)據(jù)庫很有價值，但是他們不想將這些有價值的內(nèi)容免費提供給科技大公司。

隨后，推特也開始以“不想讓 AI 公司白嫖數(shù)據(jù)”的理由，來給推特限流，未經(jīng)驗證用戶日瀏覽量只有 600，經(jīng)過驗證后增加到 6000。

這一系列政策對用戶和第三方工具影響很嚴(yán)重，例如 Reddit 引發(fā)了大規(guī)模的討論版塊抗議，不少版主直接關(guān)閉了自己管理的論壇，以對 Reddit 這一活動進行抗議，推特上也有不少人在聲討，甚至有網(wǎng)友表示“推特被殺死了”。

但無論如何，讓 AI 白嫖數(shù)據(jù)這件事，現(xiàn)在都已經(jīng)是一個無法忽視的矛盾了。

對于谷歌 AI 爬數(shù)據(jù)這件事，有網(wǎng)友表示疑惑：

為啥之前互聯(lián)網(wǎng)如搜索引擎也有爬取數(shù)據(jù)一類的操作，但人們卻偏偏對“AI 抓取”感到抗拒。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

有網(wǎng)友回應(yīng)稱：

本質(zhì)上還是版權(quán)的問題。如果只是引用受版權(quán)保護的材料，那么不一定侵犯版權(quán)，但如果用 AI 對有版權(quán)的內(nèi)容進行“攪拌清洗”，而且這事兒合法化了，那么本質(zhì)上版權(quán)已死。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

也正是因此，他對于這件事感到悲觀：

如果有人在不標(biāo)注來源的情況下復(fù)制了你的博客，或是將你的開源代碼拿去做付費服務(wù)，又或是將你在 StackOverflow 上的答案用作答題方法，你能接受這些情況發(fā)生嗎？
我之前做的一切都是免費的。但現(xiàn)在如果 AI 想讓我消失，那我就會消失。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

當(dāng)然，也有網(wǎng)友已經(jīng)接受了這個政策的推出，警惕大家自身防范意識不可或缺：

細讀新政策，注意我們泄露了多少信息到網(wǎng)上。

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

那么，你怎么看待這件事？

參考鏈接：

[1]https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486
[2]https://news.ycombinator.com/item?id=36577626

本文來自微信公眾號：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新

用于訓(xùn)練 Bard 等 AI 產(chǎn)品

“AI 正挑戰(zhàn)文字版權(quán)”

相關(guān)文章

谷歌 AI 正在吞食一切，爬取所有公開內(nèi)容用于訓(xùn)練 AI，隱私政策已更新