設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌發(fā)布 FACTS Grounding 基準(zhǔn):Gemini、GPT-4o、Claude 當(dāng)評(píng)委,成 AI 大語(yǔ)言模型“幻覺(jué)照妖鏡”

2024/12/18 13:15:47 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 12 月 18 日消息,谷歌 DeepMind 團(tuán)隊(duì)于 12 月 17 日發(fā)布博文,宣布推出 FACTS Grounding 基準(zhǔn)測(cè)試,評(píng)估大型語(yǔ)言模型(LLMs)根據(jù)給定材料是否準(zhǔn)確作答,并避免“幻覺(jué)”(即捏造信息)的能力,從而提升 LLMs 的事實(shí)準(zhǔn)確性,增強(qiáng)用戶信任度,并拓展其應(yīng)用范圍。

數(shù)據(jù)集

在數(shù)據(jù)集方面,ACTS Grounding 數(shù)據(jù)集包含 1719 個(gè)示例,涵蓋金融、科技、零售、醫(yī)療和法律等多個(gè)領(lǐng)域,每個(gè)示例包含一篇文檔、一條要求 LLM 基于文檔的系統(tǒng)指令和隨附的提示詞。

示例文檔長(zhǎng)度不一,最長(zhǎng)可達(dá) 32000 個(gè) token(約 20000 字)。用戶請(qǐng)求涵蓋摘要、問(wèn)答生成和改寫等任務(wù),但不包含需要?jiǎng)?chuàng)造力、數(shù)學(xué)或復(fù)雜推理的任務(wù)。IT之家附上演示圖片如下:

數(shù)據(jù)集分為 860 個(gè)“公共”示例和 859 個(gè)“私有”示例,目前已發(fā)布公共數(shù)據(jù)集供評(píng)估使用,私有數(shù)據(jù)集用于排行榜評(píng)分,以防止基準(zhǔn)污染和排行榜作弊。

評(píng)估方案

在評(píng)估方案上,F(xiàn)ACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作為評(píng)委,評(píng)估答案的充分性、事實(shí)準(zhǔn)確性和文檔支持性。

評(píng)估分為兩個(gè)階段:首先評(píng)估響應(yīng)是否符合資格,即是否充分回答了用戶請(qǐng)求;然后評(píng)估響應(yīng)的事實(shí)準(zhǔn)確性,即是否完全基于所提供的文檔,有沒(méi)有出現(xiàn)“幻覺(jué)”,然后基于該模型在所有示例上的平均得分,最終計(jì)算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事實(shí)準(zhǔn)確的文本生成方面取得了最高分。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,AI,GPT

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知