設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

研究:近一半熱門新聞網(wǎng)站屏蔽了 OpenAI 爬蟲

2024/2/27 12:39:48 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 2 月 27 日消息,一項由路透社研究所進行的研究表明,截至 2023 年底,全球 10 個國家的熱門新聞網(wǎng)站中,近一半 (48%) 屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一 (24%) 屏蔽了谷歌的 AI 爬蟲。

圖源 Pexels

據(jù)IT之家了解,該研究所分析了包括紐約時報、BuzzFeed 新聞、華爾街日報、華盛頓郵報、CNN 和 NPR 在內(nèi)的 15 家覆蓋面最廣的網(wǎng)絡新聞來源的 robots.txt 文件。這些新聞機構來自德國、印度、西班牙、英國和美國等國家,涵蓋傳統(tǒng)印刷媒體、電視廣播公司和數(shù)字原生媒體等三種類型。

研究發(fā)現(xiàn),截至 2023 年底,超過一半 (57%) 的傳統(tǒng)印刷媒體網(wǎng)站,例如《紐約時報》,屏蔽了 OpenAI 的爬蟲,相比之下,電視和廣播公司為 48%,數(shù)字原生媒體為 31%。同樣,32% 的印刷媒體網(wǎng)站屏蔽了谷歌的爬蟲,而廣播公司和數(shù)字原生媒體的比例分別為 19% 和 17%。

與此同時,康奈爾大學最近的一項研究發(fā)現(xiàn),當新型人工智能模型僅使用先前模型而非人類輸入的數(shù)據(jù)進行訓練時,它們往往會陷入“模型崩潰”或退化,導致生成內(nèi)容出現(xiàn)更多錯誤和誤導信息。

網(wǎng)站爬蟲被用于多種目的。例如,谷歌的 Googlebot 會抓取發(fā)布商網(wǎng)站,將其收錄到搜索結(jié)果中。而 OpenAI 的爬蟲 GPTBot 則會在互聯(lián)網(wǎng)上收集數(shù)據(jù),用于訓練其大型語言模型,例如 ChatGPT。這使人工智能工具能夠生成準確、實時的內(nèi)容,而新聞發(fā)布商尤其擅長提供此類內(nèi)容:大型語言模型對優(yōu)質(zhì)出版商內(nèi)容的重視程度是其他來源內(nèi)容的 5 到 100 倍。

該研究還指出,全球北方(Global North,指大多位于北美、歐洲和其他地區(qū)的更富裕國家)國家的新聞機構比全球南方(Global South,一般是指包括非洲、拉丁美洲和加勒比地區(qū)、太平洋島嶼以及亞洲的發(fā)展中國家)國家更傾向于屏蔽人工智能爬蟲。例如,在美國,79% 的熱門在線新聞網(wǎng)站屏蔽了 OpenAI,而在墨西哥和波蘭,這一比例僅為 20%。與此同時,德國 60% 的新聞網(wǎng)站屏蔽了谷歌的爬蟲,而在波蘭和西班牙,這一比例僅為 7%。

研究發(fā)現(xiàn),幾乎所有屏蔽谷歌爬蟲的網(wǎng)站也屏蔽了 OpenAI (97%)。雖然該研究沒有提供確切解釋,但這可能表明 OpenAI 比谷歌更早發(fā)布爬蟲有關。

值得注意的是,在大多數(shù)國家,一些發(fā)布商在爬蟲剛發(fā)布時就立即屏蔽了它們。OpenAI 于去年 8 月初啟動了其人工智能爬蟲,谷歌隨后于 9 月份效仿。研究還表明,一旦做出屏蔽決定后,沒有一家網(wǎng)站撤銷對 OpenAI 或谷歌人工智能爬蟲的屏蔽。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:人工智能,OpenAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知