明牌：OpenAI 發(fā)布帶有“身份標識”的網(wǎng)絡爬蟲工具 GPTBot

2023/8/8 21:14:40 來源：IT之家作者：漾仔（實習） 責編：問舟

評論：

IT之家 8 月 8 日消息，OpenAI 昨日發(fā)布了旗下網(wǎng)絡爬蟲工具 GPTBot。官方宣稱，該 GPTBot 工具能夠在注重版權的基礎上，使用透明的方式收集網(wǎng)頁信息，來訓練 OpenAI 旗下的各 AI 模型。

OpenAI 表示，GPTBot 使用專有網(wǎng)頁 UA 表示其爬蟲身份，完整 UA 字符串為（Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot），任何網(wǎng)站管理者都可以自由允許或阻止該爬蟲工具進行數(shù)據(jù)采集。

▲ 圖源 OpenAI

明牌：OpenAI 發(fā)布帶有“身份標識”的網(wǎng)絡爬蟲工具 GPTBot

▲ 圖源 OpenAI

OpenAI 聲稱，若網(wǎng)站管理員不希望被爬蟲搜集資料，管理員可以在網(wǎng)站服務器的 robots.txt 文件中完全禁止 GPTBot 抓取信息，或自行決定 GPTBot 抓取網(wǎng)站上的指定信息。

OpenAI 此前飽受業(yè)界對于“侵犯隱私問題”的指責，當下 OpenAI 推出這樣一套 GPTBot 爬蟲工具，可謂是其對于外界批判作出的相應回應，同時也能夠推動行業(yè)建立 AI 訓練用爬蟲工具相關基準。IT之家此前報道，OpenAI 日前宣布注冊 GPT-5 商標，該 GPTBot 爬蟲工具也有望助力 GPT-5 的相關模型訓練。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：網(wǎng)絡爬蟲，OpenAI，GPT5，GPTBot

明牌：OpenAI 發(fā)布帶有“身份標識”的網(wǎng)絡爬蟲工具 GPTBot

相關文章