設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

力壓群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精確引用

2025/4/22 11:02:14 來源:IT之家 作者:故淵 責編:故淵

IT之家 4 月 22 日消息,最新報告指出,谷歌旗下的 Gemini 2.5 Pro 模型能準確解析 PDF 文檔的視覺結(jié)構(gòu),實現(xiàn)精準的視覺引用功能,成為首款能完全理解 PDF 布局的 AI 模型。

IT之家注:谷歌于 3 月 25 日向付費用戶和開發(fā)者發(fā)布 Gemini 2.5 Pro 實驗模型,僅隔 4 天時間,谷歌便通過免費 Web 應用向全球用戶開放。

Gemini 2.5 Pro 不僅能提取 PDF 文檔中的文本內(nèi)容,還能理解其視覺布局,包括圖表、表格和整體排版。

谷歌在開發(fā)者文檔中表示,該模型具備“原生視覺”(Native Vision)能力,支持處理最多 3000 個 PDF 文件(每個文件上限為 1000 頁或 50MB),同時擁有 100 萬 token 的超大上下文窗口,未來計劃擴展至 200 萬 token。

AI 初創(chuàng)公司 Matrisk 的聯(lián)合創(chuàng)始人 Sergey Filimonov 特別贊揚了 Gemini 2.5 Pro 在 PDF 視覺引用上的表現(xiàn)。

Filimonov 指出,傳統(tǒng)的文本分割方法會切斷用戶與原文的視覺聯(lián)系,導致無法直觀驗證信息的來源。甚至在 ChatGPT 中,點擊引用也只能下載 PDF,迫使用戶自行判斷模型是否“幻覺”,這嚴重損害了用戶信任。

過去,引用文檔內(nèi)容往往只能高亮大段無關文本,精準度極低。Gemini 2.5 徹底改變這一現(xiàn)狀,它不僅能將提取的文本片段映射回原始 PDF 的確切位置,還能以前所未有的精度鎖定特定句子、表格單元甚至圖像。

這種技術(shù)突破為用戶提供了直觀的視覺反饋,例如在詢問房屋費率變化時,系統(tǒng)能直接高亮文檔中相關數(shù)據(jù)(如 15.4% 的費率變化),并標注來源依據(jù)。

這種清晰度和交互性是現(xiàn)有工具無法企及的。Gemini 2.5 不僅優(yōu)化了現(xiàn)有流程,更開啟了全新的文檔交互模式。

相比之下,Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅領先其他模型,如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展現(xiàn)出驚人的空間理解能力。

提供商模型IOU簡評
Gemini2.5 Pro0.804非常優(yōu)秀
Gemini2.5 Flash0.614有時表現(xiàn)不錯
Gemini2.0 Flash0.395
OpenAIgpt-4o0.223
OpenAIgpt-4.10.268
OpenAIgpt-4.1-mini0.253
Claude3.7 Sonnet0.210

Gemini 2.5 的潛力遠不止于文本定位。它還能從 PDF 中提取結(jié)構(gòu)化數(shù)據(jù),同時明確標注每個數(shù)據(jù)的來源位置,解決下游決策中因數(shù)據(jù)來源不明而產(chǎn)生的信任障礙。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:Gemini,谷歌,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知