IT之家 8 月 8 日消息,OpenAI 昨日發(fā)布了旗下網(wǎng)絡爬蟲工具 GPTBot。官方宣稱,該 GPTBot 工具能夠在注重版權的基礎上,使用透明的方式收集網(wǎng)頁信息,來訓練 OpenAI 旗下的各 AI 模型。
OpenAI 表示,GPTBot 使用專有網(wǎng)頁 UA 表示其爬蟲身份,完整 UA 字符串為(Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot),任何網(wǎng)站管理者都可以自由允許或阻止該爬蟲工具進行數(shù)據(jù)采集。
OpenAI 聲稱,若網(wǎng)站管理員不希望被爬蟲搜集資料,管理員可以在網(wǎng)站服務器的 robots.txt 文件中完全禁止 GPTBot 抓取信息,或自行決定 GPTBot 抓取網(wǎng)站上的指定信息。
OpenAI 此前飽受業(yè)界對于“侵犯隱私問題”的指責,當下 OpenAI 推出這樣一套 GPTBot 爬蟲工具,可謂是其對于外界批判作出的相應回應,同時也能夠推動行業(yè)建立 AI 訓練用爬蟲工具相關基準。IT之家此前報道,OpenAI 日前宣布注冊 GPT-5 商標,該 GPTBot 爬蟲工具也有望助力 GPT-5 的相關模型訓練。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。