只需幾秒鐘,開源模型檢索 4500 萬篇論文,比 GPT-4o 還靠譜!
這就是由華盛頓大學(xué)和艾倫人工智能研究所(Ai2)打造的最新模型 OpenScholar。它還是首個從論文到數(shù)據(jù)集、模型檢查點都完全開源的科研助手模型。
在由 20 位專家進(jìn)行的 500 次對比實驗中,72% 的情況下他們都覺得 OpenScholar 的輸出結(jié)果超越了人類。
而且 OpenScholar 還會附上參考文獻(xiàn)列表,非常貼心:
它的功能也非常豐富。
你可以詢問 OpenScholar 某個研究課題的現(xiàn)狀:“有沒有人嘗試過將檢索增強型 LM 的檢索庫擴(kuò)大到萬億級 tokens?”
尋找最新的數(shù)據(jù)集:
針對某篇論文詢問技術(shù)細(xì)節(jié):
或者詢問算法的細(xì)節(jié),比如機(jī)器人算法 / ReLU 算法等等:
有多位網(wǎng)友使用過后表示:做復(fù)雜課題也能快速搜集有用的資料,真是科研神器!
僅調(diào)用 8B 模型
一句話總結(jié):它存儲了 4500 萬篇論文的大規(guī)模數(shù)據(jù),并使用自定義訓(xùn)練的檢索器、重排器和 8B 參數(shù)語言模型進(jìn)行檢索,并根據(jù)最新的科學(xué)文獻(xiàn)內(nèi)容回答問題。
具體來說,OpenScholar-8B(OS-8B)系統(tǒng)包括以下組件:
1.開放學(xué)者數(shù)據(jù)存儲:包含超過 4500 萬篇論文、以及對應(yīng)的約 2.5 億段落嵌入。底層論文數(shù)據(jù)截止到 2024 年 10 月。
2.專業(yè)檢索器和重排序器:這些工具專門用于從科學(xué)文獻(xiàn)數(shù)據(jù)存儲庫中識別相關(guān)段落。
3.專業(yè) 8B 語言模型:這是一個針對科學(xué)文獻(xiàn)綜合任務(wù)優(yōu)化的 8B 參數(shù)語言模型,在性能與計算效率之間取得了很好平衡。團(tuán)隊基于來自迭代自我反饋生成管道生成的合成數(shù)據(jù)訓(xùn)練并微調(diào)了 Llama 3.1 8B。
4.迭代自我反饋生成:在推理過程中,團(tuán)隊使用迭代自我反饋來通過自然語言反饋精煉模型輸出。每次迭代都額外檢索更多論文,使模型能夠提高回答質(zhì)量并縮小引用差距。
為了評估 OpenScholar,團(tuán)隊還開發(fā)了 ScholarQABench—— 一個專門用于評估從多篇論文中綜合信息以解決開放式科學(xué)問題的基準(zhǔn)。
ScholarQABench 包含七個數(shù)據(jù)集:三個專注于單篇論文評估的現(xiàn)有數(shù)據(jù)集,以及四個需要跨多篇論文綜合的新收集數(shù)據(jù)集。
最終在實驗自動評估以及人工評估中,OpenScholar 模型的表現(xiàn)優(yōu)于很多主流模型,包括 GPT-4o 和 Llama 3.1 70B。
搜索的可靠性方面,OpenScholar 更是遠(yuǎn)超 GPT-4o。
GPT-4o 在 90% 以上的情況下都引用了不存在的論文,而 OpenScholar 的結(jié)果都是來自確定來源。
以及在信息覆蓋率、實用性、相關(guān)性等多個維度方面,OpenScholar 撰寫的結(jié)果都優(yōu)于 GPT-4o。
運營成本便宜 100 倍
對比基于 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 的科研模型可以發(fā)現(xiàn),它們雖然性能很強,但價格昂貴、而且工作原理也不透明。而 OpenScholar 正是為了挑戰(zhàn)這些現(xiàn)有的大模型玩家入局的!
據(jù)開發(fā)人員稱,OpenScholar 是首個完全開源的科學(xué)助手語言模型 —— 從數(shù)據(jù)到訓(xùn)練食譜再到模型檢查點,全部公開!
研究人員可以非常清除地看到模型的訓(xùn)練過程和數(shù)據(jù)集的內(nèi)容等,也可以根據(jù)自己的工作進(jìn)行調(diào)整。
這樣一來,規(guī)模較小、架構(gòu)簡單的 OpenScholar-8B 的運營成本比基于 GPT-4o 構(gòu)建的同期系統(tǒng) PaperQA2 便宜 100 倍。
對于小型機(jī)構(gòu)、資金不足的實驗室以及發(fā)展中國家的研究人員來說,這樣的運營成本非常有吸引力。
不過,目前 OpenScholar 也有很多局限,比如:
1.OpenScholar 可能會引用不那么具有代表性的論文。
例如,在描述特定方法時,它可能未能引用提出該方法的原始論文,而是引用了提及該方法的另一篇論文。
2.OpenScholar 有時可能會生成沒有參考文獻(xiàn)支持的響應(yīng),或者檢索到該領(lǐng)域不是最相關(guān)或最新的論文。
例如:當(dāng)被問及機(jī)器人學(xué)中的大型基礎(chǔ)模型時,此響應(yīng)引用了一篇具有 3.07 億參數(shù)模型的論文,而截至 2024 年 11 月,機(jī)器人學(xué)中當(dāng)前最大的基礎(chǔ)模型(RT-2)具有 550 億參數(shù)。
3.OpenScholar 可能仍然可能生成帶有幻覺的結(jié)果,而不是依賴于它檢索到的真實論文。
4.許多科學(xué)論文都設(shè)置了付費墻。
目前出于對版權(quán)的尊重,OpenScholar 數(shù)據(jù)存儲庫僅包含公開的論文。這可能會降低模型在較封閉領(lǐng)域回答問題的能力。
團(tuán)隊表示,未來他們會納入更多論文、升級檢索增強算法,也會對各個領(lǐng)域的經(jīng)典研究問題和論文進(jìn)行深入整合,增強 OpenScholar 的專業(yè)程度。
不過,從實驗結(jié)果來看,OpenScholar 已經(jīng)是目前表現(xiàn)最好的 AI 學(xué)術(shù)研究助理之一啦,感興趣的小伙伴可以直接戳下面的公開資料進(jìn)行嘗試!
Demo:
論文:
https://openscholar.allen.ai/paper
OpenScholar 代碼:
https://github.com/AkariAsai/OpenScholar
ScholarQABench 數(shù)據(jù)集代碼:
https://github.com/AkariAsai/ScholarQABench
更多測試 code:
https://github.com/AkariAsai/OpenScholar_ExpertEval
參考鏈接
[1] https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/
[2] https://allenai.org/blog/openscholar
本文來自微信公眾號:量子位(ID:QbitAI),作者:奇月,原標(biāo)題《超越 GPT-4o!開源科研神器登場,4500 萬篇論文檢索增強生成靠譜回答》
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。