IT之家 1 月 31 日消息,百度于 2025 年 1 月 23 日公布最新研究成果 EICopilot,利用大型語言模型(LLM)簡(jiǎn)化了從數(shù)據(jù)庫(kù)中提取信息的流程,為企業(yè)知識(shí)圖譜探索提供了高效解決方案。
項(xiàng)目背景
知識(shí)圖譜近來在企業(yè)領(lǐng)域得到了廣泛應(yīng)用,涵蓋法人、注冊(cè)資本、股東信息等多維度數(shù)據(jù)。盡管圖譜具有很高的實(shí)用性,但由于復(fù)雜的文本查詢和手動(dòng)探索限制,阻礙有效提取信息。
EICopilot 簡(jiǎn)介
EICopilot 由百度研究院開發(fā),是一個(gè)基于 AI 智能體的解決方案,可簡(jiǎn)化存儲(chǔ)在知識(shí)圖譜數(shù)據(jù)庫(kù)中的企業(yè)數(shù)據(jù)的搜索、探索和摘要,從而有效地獲得有關(guān)企業(yè)的寶貴見解。
EICopilot 處理的數(shù)據(jù)集包含數(shù)億節(jié)點(diǎn)、數(shù)百億邊(edges)、數(shù)千億屬性以及數(shù)百萬子圖,涵蓋國(guó)家注冊(cè)企業(yè)、組織和公司等信息。
研究人員收集真實(shí)企業(yè)相關(guān)查詢,構(gòu)建種子數(shù)據(jù)集,并使用 Gremlin 語言編寫搜索腳本,通過系統(tǒng)標(biāo)注和增強(qiáng),形成向量數(shù)據(jù)庫(kù),提高搜索精度。
EICopilot 是一個(gè)基于 LLM 的聊天機(jī)器人,采用創(chuàng)新的數(shù)據(jù)預(yù)處理流程優(yōu)化數(shù)據(jù)庫(kù)查詢,利用向量數(shù)據(jù)庫(kù)實(shí)時(shí)生成搜索空間,實(shí)現(xiàn)高效的圖譜檢索和探索。
EICopilot 還具備強(qiáng)大的推理能力,采用思維鏈(CoT)和上下文學(xué)習(xí)(ICL)等技術(shù),提供更精準(zhǔn)的查詢響應(yīng)。
EICopilot 性能
研究人員使用百度內(nèi)部數(shù)據(jù)平臺(tái)的數(shù)據(jù),構(gòu)建了包含查詢和圖數(shù)據(jù)庫(kù)查詢對(duì)的數(shù)據(jù)集,根據(jù)查詢的遍歷長(zhǎng)度,將查詢分為簡(jiǎn)單、中等和復(fù)雜三類,并采用語法錯(cuò)誤率(SyntaxErrorRate)和執(zhí)行正確率(Execution Correctness)評(píng)估 EICopilot 的性能。
實(shí)證結(jié)果表明,EICopilot 的性能優(yōu)于基線方法,尤其在速度和準(zhǔn)確性方面。Full Mask 版本的 EICopilot 語法錯(cuò)誤率低至 10.00%,執(zhí)行正確率高達(dá) 82.14%。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。