設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

史上 AI 最高分,谷歌大模型創(chuàng)美國醫(yī)師執(zhí)照試題新紀錄,科學(xué)常識水平媲美人類醫(yī)生

量子位 2022/12/28 14:07:00 責編:夢澤

史上 AI 最高分,谷歌新模型剛剛通過美國醫(yī)師執(zhí)照試題驗證!

而且在科學(xué)常識、理解、檢索和推理能力等任務(wù)中,直接與人類醫(yī)生水平相匹敵。在一些臨床問答表現(xiàn)中,最高超原 SOTA 模型 17% 以上。

此進展一出,瞬間引爆學(xué)界熱議,不少業(yè)內(nèi)人士感嘆:終于,它來了。

廣大網(wǎng)友在看完 Med-PaLM 與人類醫(yī)生的對比后,則是紛紛表示已經(jīng)在期待 AI 醫(yī)生上崗了。

還有人調(diào)侃這個時間點的精準,恰逢大家都以為谷歌會因 ChatGPT 而“死”之際。

來看看這到底是一個什么樣的研究?

史上 AI 最高分

由于醫(yī)療的專業(yè)性,今天的 AI 模型在該領(lǐng)域的應(yīng)用很大程度上沒有充分運用語言。這些模型雖然有用,但存在聚焦單任務(wù)系統(tǒng)(如分類、回歸、分割等)、缺乏表現(xiàn)力和互動能力等問題。

大模型的突破給 AI + 醫(yī)療帶來了新的可能性,但由于該領(lǐng)域的特殊性,仍需考慮潛在的危害,比如提供虛假醫(yī)療信息。

基于這樣的背景,谷歌研究院和 DeepMind 團隊以醫(yī)療問答為研究對象,做出了以下貢獻:

提出了一個醫(yī)學(xué)問答基準 MultiMedQA,包括醫(yī)學(xué)考試、醫(yī)學(xué)研究和消費者醫(yī)學(xué)問題;

在 MultiMedQA 上評估了 PaLM 及微調(diào)變體 Flan-PaLM

提出了指令提示 x 調(diào)整,讓 Flan-PaLM 進一步與醫(yī)學(xué)接軌,產(chǎn)生了 Med-PaLM。

他們認為「醫(yī)療問題的回答」這項任務(wù)很有挑戰(zhàn)性,因為要提供高質(zhì)量的答案,AI 需要理解醫(yī)學(xué)背景、回憶適當?shù)尼t(yī)學(xué)知識,并對專家信息進行推理。

現(xiàn)有的評價基準往往局限于評估分類準確度或自然語言生成指標,而不能對實際臨床應(yīng)用中詳細分析。

首先,團隊提出了一個由 7 個醫(yī)學(xué)問題問答數(shù)據(jù)集組成的基準。

包括 6 個現(xiàn)有數(shù)據(jù)集,其中還包括 MedQA(USMLE,美國醫(yī)師執(zhí)照考試題),還引入了他們自己的新數(shù)據(jù)集 HealthSearchQA,它由搜索過的健康問題組成。

這當中有關(guān)于醫(yī)學(xué)考試、醫(yī)學(xué)研究以及消費者醫(yī)學(xué)問題等。

接著,團隊用 MultiMedQA 評估了 PaLM(5400 億參數(shù))、以及指令微調(diào)后的變體 Flan-PaLM。比如通過擴大任務(wù)數(shù)、模型大小和使用思維鏈數(shù)據(jù)的策略。

FLAN 是谷歌研究院去年提出的一種微調(diào)語言網(wǎng)絡(luò),對模型進行微調(diào)使其更適用于通用 NLP 任務(wù),使用指令調(diào)整來訓(xùn)練模型。

結(jié)果發(fā)現(xiàn),F(xiàn)lan-PaLM 在幾個基準上達到了最優(yōu)性能,比如 MedQA、MedMCQA、PubMedQA 和 MMLU。尤其是 MedQA(USMLE)數(shù)據(jù)集,表現(xiàn)超過了此前 SOTA 模型 17% 以上。

本項研究中,共考慮了三種不同規(guī)模的 PaLM 和 Flan-PaLM 模型變體:80 億參數(shù)、620 億參數(shù)以及 5400 億參數(shù)。

不過 Flan-PaLM 仍存在一定的局限性,在處理消費者醫(yī)學(xué)問題上表現(xiàn)效果不佳。

為了解決這一問題,讓 Flan-PaLM 更適應(yīng)醫(yī)學(xué)領(lǐng)域,他們進行了指令提示調(diào)整,由此產(chǎn)生 Med-PaLM 模型。

示例:新生兒黃疸需要多長時間才能消失?

團隊首先從 MultiMedQA 自由回答數(shù)據(jù)集(HealthSearchQA、MedicationQA、LiveQA)中隨機抽取了一些例子。

然后讓臨床醫(yī)生 5 人組提供示范性答案。這些臨床醫(yī)生分布于美國和英國,在初級保健、外科、內(nèi)科和兒科方面具有專業(yè)經(jīng)驗。最終在 HealthSearchQA、MedicationQA 和 LiveQA 中留下了 40 個例子,用于指令提示調(diào)諧訓(xùn)練。

多個任務(wù)接近人類醫(yī)生水平

為了驗證 Med-PaLM 的最終效果,研究人員從上文提到的 MultiMedQA 中抽取了 140 個消費者醫(yī)療問題。

其中 100 個來自 HealthSearchQA 數(shù)據(jù)集,20 個來自 LiveQA 數(shù)據(jù)集,20 個來自 MedicationQA 數(shù)據(jù)集。

值得一提的是,這里面并不包含當初用于指令提示調(diào)整以生成 Med-PaLM 的問題。

他們讓 Flan-PaLM 和 Med-PaLM 分別對這 140 個問題生成答案,又請來一組專業(yè)的臨床醫(yī)生作出回答。

以下圖為例,當被問到“耳朵疼得厲害意味著什么”時,Med-PaLM 不僅會一條條列出患者可能感染的疾病,還會建議如果有以下幾種現(xiàn)象應(yīng)該去就醫(yī)。

耳部疼痛可能是幾種潛在疾病的征兆,包括:中耳感染 (中耳炎)、外耳感染 (耳部感染)、耳垢嵌塞。也可能是更嚴重疾病的征兆,比如腦瘤或中風。

如果你有嚴重的耳朵疼痛,持續(xù)時間超過幾天,或者有其他癥狀伴隨耳朵疼痛,如頭暈、發(fā)燒、面部無力或麻木,你應(yīng)該去看醫(yī)生進行評估。醫(yī)生可以確定疼痛的原因,并提供適當?shù)闹委煛?/p>

就這樣,研究人員將這三組答案匿名后交給 9 名分別來自美國、英國和印度的臨床醫(yī)生進行評估。

結(jié)果顯示,在科學(xué)常識方面,Med-PaLM 和人類醫(yī)生的正確率都達到了 92% 以上,而 Flan-PaLM 對應(yīng)的數(shù)字為 61.9%。

在理解、檢索和推理能力上,總體來說,Med-PaLM 幾乎達到了人類醫(yī)生的水平,兩者相差無幾,而 Flan-PaLM 同樣表現(xiàn)墊底。

在答案的完整性上,雖然 Flan-PaLM 的回答被認為漏掉了 47.2% 的重要信息,但 Med-PaLM 的回答有顯著提升,只有 15.1% 的回答被認為缺失了信息,進一步拉近了與人類醫(yī)生的距離。

不過,盡管遺漏信息較少,但更長的答案也意味著會增加引入不正確內(nèi)容的風險,Med-PaLM 的答案中不正確內(nèi)容比例達到了 18.7%,為三者中最高。

再考慮到答案可能產(chǎn)生的危害性,29.7% 的 Flan-PaLM 回答被認為存在潛在的危害;Med-PaLM 的這個數(shù)字下降到了 5.9%,人類醫(yī)生相對最低為 5.7%。

除此之外,在醫(yī)學(xué)人口統(tǒng)計學(xué)的偏見上,Med-PaLM 的性能超過了人類醫(yī)生,Med-PaLM 的答案中存在偏見的情況僅有 0.8%,相比之下,人類醫(yī)生為 1.4%,F(xiàn)lan-PaLM 為 7.9% 。

最后,研究人員還請來了 5 位非專業(yè)用戶,來評估這三組答案的實用性。Flan-PaLM 的答案只有 60.6% 被認為有幫助,Med-PaLM 的數(shù)量增加到了 80.3%,人類醫(yī)生最高為 91.1%。

總結(jié)上述所有評估可以看出,指令提示調(diào)整對性能的提升效果顯著,在 140 個消費者醫(yī)療問題中,Med-PaLM 的表現(xiàn)幾乎追上了人類醫(yī)生水平。

背后團隊

本次論文的研究團隊來自谷歌和 DeepMind。

繼去年谷歌健康被曝大規(guī)模裁員重組后,這可以說是他們在醫(yī)療領(lǐng)域推出一大力作。

連谷歌 AI 負責人 Jeff Dean 都出來站臺,表示強烈推薦!

有業(yè)內(nèi)人士看完后也稱贊道:

臨床知識是一個復(fù)雜的領(lǐng)域,往往沒有一個明顯的正確答案,而且還需要與病人進行對話。

這次谷歌 DeepMind 的新模型堪稱 LLM 的完美應(yīng)用。

值得一提的是,前段時間剛通過了美國醫(yī)師執(zhí)照考試另一個團隊。

再往前數(shù),今年涌現(xiàn)的 PubMed GPT、DRAGON、Meta 的 Galactica 等等一波大模型,屢屢在專業(yè)考試上創(chuàng)下新的記錄。

醫(yī)療 AI 如此盛況,很難想象去年還一度唱衰的光景。當時谷歌與醫(yī)療 AI 相關(guān)的創(chuàng)新業(yè)務(wù)始終沒有做起來。

去年 6 月還一度被美國媒體 BI 曝光正陷入重重危機之中,不得不大規(guī)模裁員重組。而在 2018 年 11 月谷歌健康部門剛成立時可謂風光無限。

也不只是谷歌,其他知名科技公司的醫(yī)療 AI 業(yè)務(wù),也都曾經(jīng)歷過重組、收購的情況。

看完這次谷歌 DeepMind 發(fā)布的醫(yī)療大模型,你看好醫(yī)療 AI 的發(fā)展嗎?

論文地址:

https://arxiv.org/abs/2212.13138

參考鏈接:

  • https://twitter.com/vivnat/status/1607609299894947841

本文來自微信公眾號:量子位 (ID:QbitAI),作者:楊凈 羿閣

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,Deepmind

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知