設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

StackOverflow:類 ChatGPT 們用我數(shù)據(jù)訓(xùn)練得付費(fèi)

量子位 2023/4/24 14:07:11 責(zé)編:夢(mèng)澤

ChatGPT,遭到了一波反向收費(fèi)。

而管 OpenAI 要錢的,正是全球最大程序員問答網(wǎng)站 StackOverflow

理由是這樣的:

你們拿我家的數(shù)據(jù)去訓(xùn)練 AI 了。

無獨(dú)有偶,在 StackOverflow 之前,Reddit 近日也發(fā)出了類似的信號(hào) —— 計(jì)劃開始向訪問其 API 的公司收費(fèi)。

Reddit 老板給出的理由更是直白:

我們的數(shù)據(jù)非常有價(jià)值,不想免費(fèi)提供給科技巨頭們。

不得不說,這波圍繞類 ChatGPT 展開的“商戰(zhàn)”著實(shí)有點(diǎn)意思。

不過圍觀的網(wǎng)友們就不那么樂觀了:

唯一沒有獲利的…… 好像就是用戶了。

科技巨頭們要為訓(xùn)練數(shù)據(jù)買單了

我們都知道,訓(xùn)練一個(gè)像諸如 ChatGPT 這樣的 AI,背后定然需要海量的數(shù)據(jù)。

無論是 OpenAI、谷歌、微軟、Meta 或是其它公司都是如此。

但這些科技巨頭們一般獲取這些數(shù)據(jù)的方式都是從網(wǎng)上抓取,也因此不會(huì)給對(duì)應(yīng)數(shù)據(jù)背后的公司掏錢。

他們所獲取的數(shù)據(jù)來源,就包括了 StackOverflow、Reddit 在內(nèi)的數(shù)千個(gè)在線“資源”。

然后科技巨頭們就會(huì)將這些數(shù)據(jù)“喂”給大模型,讓對(duì)話 AI 變得更聰明、更智能。

待產(chǎn)品們成熟可以“上崗”之后,科技巨頭們就會(huì)開啟付費(fèi)模式,例如我們熟知的 ChatGPT Plus、GitHub Copilot 等等。

但在這么一個(gè)過程中,像 StackOverflow 和 Reddit 這樣的網(wǎng)站,就有點(diǎn)慘了。

首先,就是我們剛才提到的,這些 AI 拿著他們家的數(shù)據(jù)做訓(xùn)練,變得更強(qiáng)更優(yōu)秀。

其次,這些 AI 的誕生似乎對(duì)于它們來說并沒有太大的益處,反倒可能會(huì)變成非常有競(jìng)爭(zhēng)力的對(duì)手。

于是乎,Reddit 就率先不干了,CEO Steve Huffman 直接撂下狠話:

想白嫖,沒門!得交錢。

而后 StackOverflow 的 CEO Prashanth Chandrasekar 也公開贊成 Reddit 的做法。

不僅如此,他還認(rèn)為這些大語(yǔ)言模型(LLM)的開發(fā)人員還違反了自家網(wǎng)站用戶們的權(quán)益。

因?yàn)樵?StackOverflow 條款中有這樣的明確規(guī)定:

用戶擁有他們?cè)?Stack Overflow 上發(fā)布內(nèi)容的所有權(quán),但所有內(nèi)容均受知識(shí)共享許可的約束,該許可要求以后使用這些數(shù)據(jù)的任何人都說明其來源。

Chandrasekar 認(rèn)為,日后科技巨頭們拿著自家的類 ChatGPT 的產(chǎn)品去出售的時(shí)候,開發(fā)人員是解釋不清用了 StackOverflow 哪些用戶的問答去訓(xùn)練的模型:

因此,他們違反了知識(shí)共享許可。

據(jù)了解,StackOverflow 和 Reddit 目前都沒有對(duì)數(shù)據(jù)收費(fèi)做明確的公示,而且價(jià)格也沒有定下來。

但另一方面,各種大語(yǔ)言模型背后的企業(yè),也正在努力降低開發(fā)的成本。

將來若是訓(xùn)練數(shù)據(jù)都要收費(fèi)了…… 那這部分成本又將會(huì)有誰來買單呢?

反正 Reddit CEO 的表態(tài)是:

爬取 Reddit 數(shù)據(jù)產(chǎn)生了價(jià)值,卻不將任何價(jià)值返還給我們的用戶,這是個(gè)問題。

會(huì)怎么收費(fèi)?

雖然目前 StackOverflow 和 Reddit 都沒有明確訓(xùn)練數(shù)據(jù)的價(jià)格,但有媒體猜測(cè),他們可能會(huì)借鑒馬斯克推特的“定價(jià)路線”。

例如在這個(gè)月,馬斯克就提高了訪問推特?cái)?shù)據(jù)的價(jià)格 ——42000 美元 / 5000 萬條推文。

更戲劇性的是,馬斯克前一陣子還以“OpenAI 非法使用推特?cái)?shù)據(jù)訓(xùn)練”為由,準(zhǔn)備起訴 OpenAI。

而不僅是文字領(lǐng)域,在圖片生成領(lǐng)域,因訓(xùn)練數(shù)據(jù)而產(chǎn)生的糾紛也是屢見不鮮。

例如 Getty Image 就在此前起訴了 OpenAI 的對(duì)手 Stability AI。

理由是涉嫌使用超過 1200 萬張照片且之前沒有尋求過許可。

……

至于像 StackOverflow 和 Reddit 最終將如何定價(jià),還需要等待他們官方的表態(tài)。

但值得明確的一點(diǎn)是,隨著這一波 AIGC 熱潮的到來,其背后的各種“規(guī)矩”,是值得深入探討、商定了。

參考鏈接:

  • [1]https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/

  • [2]https://qz.com/reddit-ai-bots-training-payment-1850352526

  • [3]https://twitter.com/ruchowdh/status/1649168431063736320

本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:金磊

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知