設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

可檢測 AI 模型中“版權(quán)內(nèi)容”,Patronus 推出 CopyrightCatcher API

2024/3/9 17:55:39 來源:IT之家 作者:漾仔 責編:漾仔

IT之家 3 月 9 日消息,專門開發(fā)大語言模型(LLM)評估工具的 Patronus AI 日前發(fā)布了一款名為“CopyrightCatcher”的 API,可用來檢測大語言模型的輸出結(jié)果中是否含有侵權(quán)內(nèi)容,目前相關(guān)工具 DEMO 已經(jīng)放出,感興趣的小伙伴可以點此訪問下載。

▲ 圖源 Patronus AI 官方新聞稿

Patronus AI 表示,市面上常見的大語言模型的訓練數(shù)據(jù)中經(jīng)常含有受到版權(quán)保護的內(nèi)容,因此這些模型很容易輸出相應(yīng)版權(quán)內(nèi)容,從而為部署相關(guān)模型的企業(yè)帶來重大法律風險,因此他們推出了 CopyrightCatcher API,旨在解決相關(guān)侵權(quán)問題。

據(jù)介紹,為了檢查大語言模型輸出數(shù)據(jù)是否含有侵權(quán)內(nèi)容,Patronus AI 研究人員從 Goodreads 書籍平臺中抽取了一批受到版權(quán)保護的文字樣本對模型進行對抗性訓練,并基于這些書籍建立了 100 則暗示語段。

IT之家從報告中得知,相關(guān)語段中有 50 則要求模型“生成書籍的第一段”,另外 50 則要求模型生成書籍中的文字片段,研究人員根據(jù)上述語段整理匯總而成 CopyrightCatcher API,號稱可用來檢測大語言模型如何“精確地從原始訓練數(shù)據(jù)復制內(nèi)容”,同時還能評估模型輸出侵權(quán)內(nèi)容的概率。

研究人員使用 OpenAI 的 GPT-4 、Mistral 的 Mixtral-8x7B-Instruct-v0.1、Anthropic 的 Claude-2.1,以及 Meta 的 Llama-2-70b-chat 進行測試,最終發(fā)現(xiàn) GPT-4 最容易生成侵權(quán)內(nèi)容,Claude-2.1 最難生成侵權(quán)內(nèi)容

  • GPT-4:44%

  • Mixtral-8x7B-Instruct-v0.1:22%

  • Llama-2-70b-chat:10%

  • Claude-2.1:8%

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:版權(quán),人工智能,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知