人工智能工具正在幫助科研人員快速整合和理解大量科學(xué)文獻,但完全自動化的高質(zhì)量文獻綜述生成仍面臨挑戰(zhàn),雖然能提升研究效率,但也存在生成低質(zhì)量綜述的風(fēng)險,需謹慎使用,所以說現(xiàn)階段還是人眼看論文靠譜。
網(wǎng)絡(luò)的普及,加上文獻數(shù)量的爆炸式增長,如今的科研人員要面臨的一個主要難題就是,盡管可能已經(jīng)收集了足夠的數(shù)據(jù)來幫助理解某個復(fù)雜的領(lǐng)域或系統(tǒng),但由于信息量的巨大,人類無法全面地閱讀和理解所有文獻。
就像是面對一個巨大的圖書館,雖然每本書都包含了寶貴的知識,但沒有人能夠閱讀所有的書籍并從中獲得一個完整的認知。
因此,盡管科學(xué)的進步為我們提供了大量的數(shù)據(jù),但如何有效地整合和理解這些數(shù)據(jù)仍然是一個亟待解決的問題。
最近 Nature 上有一篇專欄文章,介紹了一些現(xiàn)有的、文獻綜述自動化生成的方法,并指出了這類方法主要面臨的困境及用戶痛點。
盡管身處 ChatGPT 時代,但想要完全沒有人類參與,讓 AI「一鍵」完成系統(tǒng)性綜述生成,集查詢、整理、文獻篩選、總結(jié)歸納等于一身,并且沒有幻覺錯誤,仍然是一項不可能完成的任務(wù)。
用 AI 做文獻綜述
幾十年來,研究人員們一直在嘗試提升「將大量相關(guān)研究匯編成綜述」的速度,由于工作量過大,很多綜述在提交的時候往往就已經(jīng)過時了。
ChatGPT 等大模型展現(xiàn)出的超強語言理解能力,也再次激發(fā)了人們對于自動化綜述的興趣,今年 9 月,美國初創(chuàng)公司 FutureHouse 構(gòu)建了一個新系統(tǒng),宣稱能夠在幾分鐘內(nèi)生成一個比維基百科更準確的科學(xué)知識綜合頁面,并且已經(jīng)為大約 17,000 個人類基因(human gene)生成了維基百科風(fēng)格的條目,其中大部分在此前缺乏詳細的描述介紹。
一些科學(xué)文獻搜索引擎也已經(jīng)開始引入 AI 驅(qū)動能力,來幫助用戶通過查找、排序和總結(jié)出版物來制作敘述性文獻綜述,但目前質(zhì)量普遍比較低。
大多數(shù)研究人員都認可,離實現(xiàn)自動化「金標準綜述」還有很長的路要走,整個過程涉及嚴格的程序來搜索和評估論文,還包括元分析來合成結(jié)果,或許 10 年、甚至 100 年后才能略有進展。
計算機輔助評審
幾十年來,計算機軟件一直在輔助研究人員搜索和解析研究文獻。
早在大型語言模型(LLMs)出現(xiàn)之前,科學(xué)家們就開始使用機器學(xué)習(xí)和其他算法來幫助識別特定研究,或快速從論文中提取發(fā)現(xiàn),但類似 ChatGPT 這樣的大模型讓自動綜述的能力顯著提升。
不過,研究人員表示,要求 ChatGPT 或其他 AI 聊天機器人從頭開始撰寫學(xué)術(shù)文獻綜述,是相當不現(xiàn)實的。
如果模型被要求對某個主題的研究進行綜述,LLM 可能會從一些可信的學(xué)術(shù)研究、不準確的博客中,或是其他未知的信息來源中整合信息,而不會對最相關(guān)、最高質(zhì)量的文獻進行權(quán)衡。
LLMs 的運行機制,即通過反復(fù)生成對查詢在統(tǒng)計上合理的單詞,決定了模型對同一個問題會生成不同的答案,并「幻想」出一些錯誤信息,比如眾所周知的「不存在」的學(xué)術(shù)引用,和人類進行綜述的過程可以說是毫無相似之處。
一個更復(fù)雜的過程是檢索增強生成(RAG),包括將預(yù)先選定的論文語料庫上傳到 LLM,并要求模型從中提取關(guān)鍵點,并基于這些研究給出答案,可以在一定程度上減少幻覺現(xiàn)象,但無法完全消滅幻覺。
RAG 的過程中,還可以設(shè)置信息來源,類似 Consensus 和 Elicit 等專門的、AI 驅(qū)動的科學(xué)搜索引擎就是這樣做的,雖然大多數(shù)公司沒有透露系統(tǒng)工作的確切細節(jié),但大體上就是將用戶的問題轉(zhuǎn)化為對學(xué)術(shù)數(shù)據(jù)庫(如 Semantic Scholar 和 PubMed)的搜索,并返回最相關(guān)的結(jié)果。
基于搜索結(jié)果,大型語言模型(LLM)會總結(jié)這些研究,并將其綜合成一個「帶引用來源」的答案,用戶可以根據(jù)具體需要選擇要引用的工作。
丹麥南部大學(xué)奧登塞分校的博士后研究員 Mushtaq Bilal 認為,這些工具肯定能讓提升綜述和寫作的效率,并且還自己開發(fā)了一個工具 Research Kick。
至少搜索引擎引用的內(nèi)容是絕對真實存在的,用戶可以進一步點擊查看,自己分辨。
不同的輔助工具有不同的特點,例如 Scite 系統(tǒng)可以快速生成支持或反駁某個主張的論文的詳細分解,Elicit 等系統(tǒng)可以從論文的不同部分提取間接(方法、結(jié)論等)。
大多數(shù) AI 科學(xué)搜索引擎不能全自動地生成準確的文獻綜述,其輸出更像是「一個本科生通宵達旦,然后總結(jié)出幾篇論文的主要觀點」,所以研究人員最好使用這些工具來優(yōu)化綜述過程中的部分環(huán)節(jié)。
但這種工具還有一些缺點,例如只能搜索開放獲取的論文和摘要,而非文章的全文,Elicit 搜索約 1.25 億篇論文,Consensus 包含超過 2 億篇。
大部分研究文獻都處于付費墻后,而且搜索大量全文計算量很大,讓 AI 應(yīng)用運行數(shù)百萬篇文章的全部文本將需要很多時間,計算成本也會非常高。
系統(tǒng)性綜述仍然很難
敘述性地總結(jié)文獻已經(jīng)非常難了,如果想把相關(guān)工作系統(tǒng)性地綜述更是難上加難,一個專業(yè)的研究人員也需要花費數(shù)月甚至數(shù)年才能完成。
根據(jù) Glasziou 團隊的分析,系統(tǒng)綜述包括至少 25 個仔細的步驟,在梳理文獻后,研究人員必須從長列表中篩選出最相關(guān)的論文,然后提取數(shù)據(jù),過濾出可能存在偏見的研究,并綜合結(jié)果。
這些步驟通常還需要另一位研究人員進行重復(fù),以檢查不一致性。
在 ChatGPT 出現(xiàn)之前,Glasziou 開始嘗試創(chuàng)造科學(xué)界的世界紀錄:在兩周內(nèi)完成一篇系統(tǒng)綜述。
Glasziou 和其他幾位同事,包括 Marshall 和 Thomas,已經(jīng)開發(fā)了計算機工具來提高效率,當時可用的軟件包括 RobotSearch,能夠快速從一系列研究中識別出隨機試驗;RobotReviewer 可以幫助評估研究是否存在因為未充分盲化而產(chǎn)生偏見的風(fēng)險。
第一次嘗試最終總共用了九個工作日;后來團隊又將該記錄縮短到了五天。這個過程還能變得更快嗎?
Elicit 是一家專注于幫助研究人員進行系統(tǒng)綜述而不僅僅是敘述性綜述的公司,但該工具并不提供一鍵式系統(tǒng)綜述,而是自動化其中某些步驟,包括篩選論文和提取數(shù)據(jù)等。
大多數(shù)使用 Elicit 進行系統(tǒng)綜述的研究人員都會上傳使用其他搜索引擎找到的相關(guān)論文,但用戶普遍擔(dān)心這類工具可能無法滿足研究的兩個基本標準:透明度和可復(fù)制性。
如果不理解具體的算法,那就不算是系統(tǒng)綜述,而只是一篇簡單的綜述文章。
今年早些時候,Glasziou 團隊成員 Clark 領(lǐng)導(dǎo)了一項系統(tǒng)綜述,研究了使用生成式 AI 工具輔助系統(tǒng)綜述的研究,最終團隊只找到了 15 項已發(fā)表的研究,并將 AI 的性能與人進行充分對比。
這些尚未發(fā)表或同行評審的結(jié)果表明,這些 AI 系統(tǒng)可以從上傳的研究中提取一些數(shù)據(jù),并評估臨床試驗的偏差風(fēng)險。
現(xiàn)有的模型在閱讀和評估論文方面似乎做得還不錯,但在所有其他任務(wù)上表現(xiàn)得非常糟糕,包括設(shè)計和進行完善徹底的文獻搜索。
潛在風(fēng)險
自動化信息合成也伴隨著風(fēng)險。
研究人員多年來就知道許多系統(tǒng)評價存在冗余或質(zhì)量差等問題,而人工智能可能會使這些問題變得更糟;作者可能會有意或無意地使用人工智能工具來快速完成不遵循嚴格程序或包含低質(zhì)量工作的評審,并得到誤導(dǎo)性的結(jié)果。
除了綜述別人的工作外,Glasziou 表示,這類模型還可以促使研究人員快速檢查以前發(fā)表的文獻,找出其中的錯誤,來繼續(xù)提高研究人員的水平。
甚至在未來,人工智能工具可以通過尋找 P-hacking 等明顯跡象來幫助標記和過濾掉質(zhì)量較差的論文。
Glasziou 將這種情況視為一種平衡:人工智能工具可以幫助科學(xué)家做出高質(zhì)量的評審,但也可能會讓部分研究者快速生成不合格的論文,目前還不知道會對出版的文獻產(chǎn)生什么影響。
有些研究者認為,合成和理解世界知識的能力不應(yīng)僅僅掌握在不透明的營利性公司手中,希望未來可以看到非營利組織構(gòu)建并仔細測試人工智能工具,小心謹慎地,盡可能保證每次提供的答案都是正確的。
參考資料:
https://www.nature.com/articles/d41586-024-03676-9
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。