首頁(yè) > 科學(xué)探索>科技前沿

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

量子位 2022/12/28 14:07:00 責(zé)編：夢(mèng)澤

評(píng)論：

史上 AI 最高分，谷歌新模型剛剛通過(guò)美國(guó)醫(yī)師執(zhí)照試題驗(yàn)證！

而且在科學(xué)常識(shí)、理解、檢索和推理能力等任務(wù)中，直接與人類醫(yī)生水平相匹敵。在一些臨床問(wèn)答表現(xiàn)中，最高超原 SOTA 模型 17% 以上。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

此進(jìn)展一出，瞬間引爆學(xué)界熱議，不少業(yè)內(nèi)人士感嘆：終于，它來(lái)了。

廣大網(wǎng)友在看完 Med-PaLM 與人類醫(yī)生的對(duì)比后，則是紛紛表示已經(jīng)在期待 AI 醫(yī)生上崗了。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

還有人調(diào)侃這個(gè)時(shí)間點(diǎn)的精準(zhǔn)，恰逢大家都以為谷歌會(huì)因 ChatGPT 而“死”之際。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

來(lái)看看這到底是一個(gè)什么樣的研究？

史上 AI 最高分

由于醫(yī)療的專業(yè)性，今天的 AI 模型在該領(lǐng)域的應(yīng)用很大程度上沒(méi)有充分運(yùn)用語(yǔ)言。這些模型雖然有用，但存在聚焦單任務(wù)系統(tǒng)（如分類、回歸、分割等）、缺乏表現(xiàn)力和互動(dòng)能力等問(wèn)題。

大模型的突破給 AI + 醫(yī)療帶來(lái)了新的可能性，但由于該領(lǐng)域的特殊性，仍需考慮潛在的危害，比如提供虛假醫(yī)療信息。

基于這樣的背景，谷歌研究院和 DeepMind 團(tuán)隊(duì)以醫(yī)療問(wèn)答為研究對(duì)象，做出了以下貢獻(xiàn)：

提出了一個(gè)醫(yī)學(xué)問(wèn)答基準(zhǔn) MultiMedQA，包括醫(yī)學(xué)考試、醫(yī)學(xué)研究和消費(fèi)者醫(yī)學(xué)問(wèn)題；

在 MultiMedQA 上評(píng)估了 PaLM 及微調(diào)變體 Flan-PaLM；

提出了指令提示 x 調(diào)整，讓 Flan-PaLM 進(jìn)一步與醫(yī)學(xué)接軌，產(chǎn)生了 Med-PaLM。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

他們認(rèn)為「醫(yī)療問(wèn)題的回答」這項(xiàng)任務(wù)很有挑戰(zhàn)性，因?yàn)橐峁└哔|(zhì)量的答案，AI 需要理解醫(yī)學(xué)背景、回憶適當(dāng)?shù)尼t(yī)學(xué)知識(shí)，并對(duì)專家信息進(jìn)行推理。

現(xiàn)有的評(píng)價(jià)基準(zhǔn)往往局限于評(píng)估分類準(zhǔn)確度或自然語(yǔ)言生成指標(biāo)，而不能對(duì)實(shí)際臨床應(yīng)用中詳細(xì)分析。

首先，團(tuán)隊(duì)提出了一個(gè)由 7 個(gè)醫(yī)學(xué)問(wèn)題問(wèn)答數(shù)據(jù)集組成的基準(zhǔn)。

包括 6 個(gè)現(xiàn)有數(shù)據(jù)集，其中還包括 MedQA（USMLE，美國(guó)醫(yī)師執(zhí)照考試題），還引入了他們自己的新數(shù)據(jù)集 HealthSearchQA，它由搜索過(guò)的健康問(wèn)題組成。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

這當(dāng)中有關(guān)于醫(yī)學(xué)考試、醫(yī)學(xué)研究以及消費(fèi)者醫(yī)學(xué)問(wèn)題等。

接著，團(tuán)隊(duì)用 MultiMedQA 評(píng)估了 PaLM（5400 億參數(shù)）、以及指令微調(diào)后的變體 Flan-PaLM。比如通過(guò)擴(kuò)大任務(wù)數(shù)、模型大小和使用思維鏈數(shù)據(jù)的策略。

FLAN 是谷歌研究院去年提出的一種微調(diào)語(yǔ)言網(wǎng)絡(luò)，對(duì)模型進(jìn)行微調(diào)使其更適用于通用 NLP 任務(wù)，使用指令調(diào)整來(lái)訓(xùn)練模型。

結(jié)果發(fā)現(xiàn)，F(xiàn)lan-PaLM 在幾個(gè)基準(zhǔn)上達(dá)到了最優(yōu)性能，比如 MedQA、MedMCQA、PubMedQA 和 MMLU。尤其是 MedQA（USMLE）數(shù)據(jù)集，表現(xiàn)超過(guò)了此前 SOTA 模型 17% 以上。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

本項(xiàng)研究中，共考慮了三種不同規(guī)模的 PaLM 和 Flan-PaLM 模型變體：80 億參數(shù)、620 億參數(shù)以及 5400 億參數(shù)。

不過(guò) Flan-PaLM 仍存在一定的局限性，在處理消費(fèi)者醫(yī)學(xué)問(wèn)題上表現(xiàn)效果不佳。

為了解決這一問(wèn)題，讓 Flan-PaLM 更適應(yīng)醫(yī)學(xué)領(lǐng)域，他們進(jìn)行了指令提示調(diào)整，由此產(chǎn)生 Med-PaLM 模型。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

△ 示例：新生兒黃疸需要多長(zhǎng)時(shí)間才能消失？

團(tuán)隊(duì)首先從 MultiMedQA 自由回答數(shù)據(jù)集（HealthSearchQA、MedicationQA、LiveQA）中隨機(jī)抽取了一些例子。

然后讓臨床醫(yī)生 5 人組提供示范性答案。這些臨床醫(yī)生分布于美國(guó)和英國(guó)，在初級(jí)保健、外科、內(nèi)科和兒科方面具有專業(yè)經(jīng)驗(yàn)。最終在 HealthSearchQA、MedicationQA 和 LiveQA 中留下了 40 個(gè)例子，用于指令提示調(diào)諧訓(xùn)練。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

多個(gè)任務(wù)接近人類醫(yī)生水平

為了驗(yàn)證 Med-PaLM 的最終效果，研究人員從上文提到的 MultiMedQA 中抽取了 140 個(gè)消費(fèi)者醫(yī)療問(wèn)題。

其中 100 個(gè)來(lái)自 HealthSearchQA 數(shù)據(jù)集，20 個(gè)來(lái)自 LiveQA 數(shù)據(jù)集，20 個(gè)來(lái)自 MedicationQA 數(shù)據(jù)集。

值得一提的是，這里面并不包含當(dāng)初用于指令提示調(diào)整以生成 Med-PaLM 的問(wèn)題。

他們讓 Flan-PaLM 和 Med-PaLM 分別對(duì)這 140 個(gè)問(wèn)題生成答案，又請(qǐng)來(lái)一組專業(yè)的臨床醫(yī)生作出回答。

以下圖為例，當(dāng)被問(wèn)到“耳朵疼得厲害意味著什么”時(shí)，Med-PaLM 不僅會(huì)一條條列出患者可能感染的疾病，還會(huì)建議如果有以下幾種現(xiàn)象應(yīng)該去就醫(yī)。

耳部疼痛可能是幾種潛在疾病的征兆，包括：中耳感染 (中耳炎)、外耳感染 (耳部感染)、耳垢嵌塞。也可能是更嚴(yán)重疾病的征兆，比如腦瘤或中風(fēng)。
如果你有嚴(yán)重的耳朵疼痛，持續(xù)時(shí)間超過(guò)幾天，或者有其他癥狀伴隨耳朵疼痛，如頭暈、發(fā)燒、面部無(wú)力或麻木，你應(yīng)該去看醫(yī)生進(jìn)行評(píng)估。醫(yī)生可以確定疼痛的原因，并提供適當(dāng)?shù)闹委煛?/p>

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

就這樣，研究人員將這三組答案匿名后交給 9 名分別來(lái)自美國(guó)、英國(guó)和印度的臨床醫(yī)生進(jìn)行評(píng)估。

結(jié)果顯示，在科學(xué)常識(shí)方面，Med-PaLM 和人類醫(yī)生的正確率都達(dá)到了 92% 以上，而 Flan-PaLM 對(duì)應(yīng)的數(shù)字為 61.9%。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

在理解、檢索和推理能力上，總體來(lái)說(shuō)，Med-PaLM 幾乎達(dá)到了人類醫(yī)生的水平，兩者相差無(wú)幾，而 Flan-PaLM 同樣表現(xiàn)墊底。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

在答案的完整性上，雖然 Flan-PaLM 的回答被認(rèn)為漏掉了 47.2% 的重要信息，但 Med-PaLM 的回答有顯著提升，只有 15.1% 的回答被認(rèn)為缺失了信息，進(jìn)一步拉近了與人類醫(yī)生的距離。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

不過(guò)，盡管遺漏信息較少，但更長(zhǎng)的答案也意味著會(huì)增加引入不正確內(nèi)容的風(fēng)險(xiǎn)，Med-PaLM 的答案中不正確內(nèi)容比例達(dá)到了 18.7%，為三者中最高。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

再考慮到答案可能產(chǎn)生的危害性，29.7% 的 Flan-PaLM 回答被認(rèn)為存在潛在的危害；Med-PaLM 的這個(gè)數(shù)字下降到了 5.9%，人類醫(yī)生相對(duì)最低為 5.7%。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

除此之外，在醫(yī)學(xué)人口統(tǒng)計(jì)學(xué)的偏見上，Med-PaLM 的性能超過(guò)了人類醫(yī)生，Med-PaLM 的答案中存在偏見的情況僅有 0.8%，相比之下，人類醫(yī)生為 1.4%，F(xiàn)lan-PaLM 為 7.9% 。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

最后，研究人員還請(qǐng)來(lái)了 5 位非專業(yè)用戶，來(lái)評(píng)估這三組答案的實(shí)用性。Flan-PaLM 的答案只有 60.6% 被認(rèn)為有幫助，Med-PaLM 的數(shù)量增加到了 80.3%，人類醫(yī)生最高為 91.1%。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

總結(jié)上述所有評(píng)估可以看出，指令提示調(diào)整對(duì)性能的提升效果顯著，在 140 個(gè)消費(fèi)者醫(yī)療問(wèn)題中，Med-PaLM 的表現(xiàn)幾乎追上了人類醫(yī)生水平。

背后團(tuán)隊(duì)

本次論文的研究團(tuán)隊(duì)來(lái)自谷歌和 DeepMind。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

繼去年谷歌健康被曝大規(guī)模裁員重組后，這可以說(shuō)是他們?cè)卺t(yī)療領(lǐng)域推出一大力作。

連谷歌 AI 負(fù)責(zé)人 Jeff Dean 都出來(lái)站臺(tái)，表示強(qiáng)烈推薦！

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

有業(yè)內(nèi)人士看完后也稱贊道：

臨床知識(shí)是一個(gè)復(fù)雜的領(lǐng)域，往往沒(méi)有一個(gè)明顯的正確答案，而且還需要與病人進(jìn)行對(duì)話。
這次谷歌 DeepMind 的新模型堪稱 LLM 的完美應(yīng)用。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

值得一提的是，前段時(shí)間剛通過(guò)了美國(guó)醫(yī)師執(zhí)照考試另一個(gè)團(tuán)隊(duì)。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

再往前數(shù)，今年涌現(xiàn)的 PubMed GPT、DRAGON、Meta 的 Galactica 等等一波大模型，屢屢在專業(yè)考試上創(chuàng)下新的記錄。

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

醫(yī)療 AI 如此盛況，很難想象去年還一度唱衰的光景。當(dāng)時(shí)谷歌與醫(yī)療 AI 相關(guān)的創(chuàng)新業(yè)務(wù)始終沒(méi)有做起來(lái)。

去年 6 月還一度被美國(guó)媒體 BI 曝光正陷入重重危機(jī)之中，不得不大規(guī)模裁員重組。而在 2018 年 11 月谷歌健康部門剛成立時(shí)可謂風(fēng)光無(wú)限。

也不只是谷歌，其他知名科技公司的醫(yī)療 AI 業(yè)務(wù)，也都曾經(jīng)歷過(guò)重組、收購(gòu)的情況。

看完這次谷歌 DeepMind 發(fā)布的醫(yī)療大模型，你看好醫(yī)療 AI 的發(fā)展嗎？

論文地址：

https://arxiv.org/abs/2212.13138

參考鏈接：

https://twitter.com/vivnat/status/1607609299894947841

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：楊凈羿閣

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生

史上 AI 最高分

多個(gè)任務(wù)接近人類醫(yī)生水平

背后團(tuán)隊(duì)

相關(guān)文章

史上 AI 最高分，谷歌大模型創(chuàng)美國(guó)醫(yī)師執(zhí)照試題新紀(jì)錄，科學(xué)常識(shí)水平媲美人類醫(yī)生