從今往后,你在網(wǎng)上公開(kāi)說(shuō)的每一句話,都可能被谷歌拿去訓(xùn)練 AI!
沒(méi)錯(cuò),繼畫(huà)畫(huà)之后,文字作品也要被用來(lái)喂大模型了 ——
無(wú)論是技術(shù)博客、代碼、論文,還是所有你在網(wǎng)上公開(kāi)的帖子,都可能被扔進(jìn)“谷歌大模型攪拌機(jī)”,即使有版權(quán)也是如此。
就在這周,谷歌更新了一版隱私政策,明確表示他們保留有抓取網(wǎng)上所有公開(kāi)內(nèi)容,以構(gòu)建其 AI 工具的權(quán)利。
網(wǎng)友們立刻炸了。有人警告“谷歌正抓取一切”:
一旦谷歌能夠讀取你寫(xiě)的東西,就意味著這些都是他們的“所有物”了。
還有網(wǎng)友抱持更悲觀的想法:
很快啊,所有內(nèi)容產(chǎn)出者就都會(huì)是 AI 了。
所以,這版隱私政策究竟是怎么回事?
用于訓(xùn)練 Bard 等 AI 產(chǎn)品
事情還得從谷歌這幾天更新的隱私政策說(shuō)起。
在最新的隱私權(quán)政策中,谷歌增加了一個(gè)關(guān)于“研究和開(kāi)發(fā)”的 AI 模型條款:
Google 會(huì)利用信息來(lái)改進(jìn)我們的服務(wù)并開(kāi)發(fā)新的產(chǎn)品、功能和技術(shù),以惠及我們的用戶(hù)和公眾。
例如,我們會(huì)利用公開(kāi)信息來(lái)幫助訓(xùn)練 Google 的 AI 模型并打造實(shí)用產(chǎn)品和功能(比如 Google 翻譯、Bard 和 Cloud AI 功能)。
換言之,就是將所有可能收集到的公開(kāi)信息,用在谷歌翻譯、Bard 和 Cloud AI 等 AI 相關(guān)產(chǎn)品或功能的訓(xùn)練中。
那么,這些公開(kāi)信息具體包括什么?
例如互聯(lián)網(wǎng)、網(wǎng)絡(luò)和其他活動(dòng)信息,包括搜索字詞、應(yīng)用和瀏覽器與谷歌服務(wù)進(jìn)行互動(dòng)的相關(guān)信息,以及在第三方網(wǎng)站和應(yīng)用中使用谷歌服務(wù)等。
換而言之,不止是此前已經(jīng)公開(kāi)的博客等內(nèi)容,包括公開(kāi)到網(wǎng)上的谷歌文檔、或是一些包含個(gè)人信息的發(fā)帖,也可能會(huì)被谷歌收集起來(lái),用于大模型訓(xùn)練。
當(dāng)然,目前這些內(nèi)容都還限定在“公開(kāi)信息”。
像谷歌提供的 Gmail 等電子郵件服務(wù),應(yīng)該還是不會(huì)被爬進(jìn)數(shù)據(jù)里的。
而且谷歌也明確在隱私權(quán)政策中表示,在其他如防范安全威脅、信息審核、服務(wù)維護(hù)、個(gè)性化廣告或法律等原因情況下,同樣可以使用這些個(gè)人或公開(kāi)信息。
不過(guò),谷歌為啥在這個(gè)節(jié)骨眼更新這個(gè)政策?
“AI 正挑戰(zhàn)文字版權(quán)”
或許也與 Reddit 和推特等一眾公司搞出的“限流”操作有關(guān)。
先是今年 4 月,Reddit 宣布對(duì)接入 API 的公司開(kāi)始收費(fèi)。
公司 CEO 認(rèn)為,Reddit 的數(shù)據(jù)庫(kù)很有價(jià)值,但是他們不想將這些有價(jià)值的內(nèi)容免費(fèi)提供給科技大公司。
隨后,推特也開(kāi)始以“不想讓 AI 公司白嫖數(shù)據(jù)”的理由,來(lái)給推特限流,未經(jīng)驗(yàn)證用戶(hù)日瀏覽量只有 600,經(jīng)過(guò)驗(yàn)證后增加到 6000。
這一系列政策對(duì)用戶(hù)和第三方工具影響很?chē)?yán)重,例如 Reddit 引發(fā)了大規(guī)模的討論版塊抗議,不少版主直接關(guān)閉了自己管理的論壇,以對(duì) Reddit 這一活動(dòng)進(jìn)行抗議,推特上也有不少人在聲討,甚至有網(wǎng)友表示“推特被殺死了”。
但無(wú)論如何,讓 AI 白嫖數(shù)據(jù)這件事,現(xiàn)在都已經(jīng)是一個(gè)無(wú)法忽視的矛盾了。
對(duì)于谷歌 AI 爬數(shù)據(jù)這件事,有網(wǎng)友表示疑惑:
為啥之前互聯(lián)網(wǎng)如搜索引擎也有爬取數(shù)據(jù)一類(lèi)的操作,但人們卻偏偏對(duì)“AI 抓取”感到抗拒。
有網(wǎng)友回應(yīng)稱(chēng):
本質(zhì)上還是版權(quán)的問(wèn)題。如果只是引用受版權(quán)保護(hù)的材料,那么不一定侵犯版權(quán),但如果用 AI 對(duì)有版權(quán)的內(nèi)容進(jìn)行“攪拌清洗”,而且這事兒合法化了,那么本質(zhì)上版權(quán)已死。
也正是因此,他對(duì)于這件事感到悲觀:
如果有人在不標(biāo)注來(lái)源的情況下復(fù)制了你的博客,或是將你的開(kāi)源代碼拿去做付費(fèi)服務(wù),又或是將你在 StackOverflow 上的答案用作答題方法,你能接受這些情況發(fā)生嗎?
我之前做的一切都是免費(fèi)的。但現(xiàn)在如果 AI 想讓我消失,那我就會(huì)消失。
當(dāng)然,也有網(wǎng)友已經(jīng)接受了這個(gè)政策的推出,警惕大家自身防范意識(shí)不可或缺:
細(xì)讀新政策,注意我們泄露了多少信息到網(wǎng)上。
那么,你怎么看待這件事?
參考鏈接:
[1]https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486
[2]https://news.ycombinator.com/item?id=36577626
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:蕭簫
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。