AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

新智元 2024/1/14 14:11:00 責(zé)編：問舟

評論：

AI 在醫(yī)療領(lǐng)域再次發(fā)光！谷歌 DeepMind 團(tuán)隊(duì)發(fā)布的全新診斷對話式 AI 在測試中擊敗醫(yī)生，通過了圖靈測試，再次引領(lǐng)醫(yī)療 AI 的革命。

我們需要研發(fā)對人類有益 AGI 的原因之一：

我妻子的身體 5 年來經(jīng)歷了種種痛苦，最終被檢查出一種叫肢體活動過度 Ehlers-Danlos 綜合征的遺傳病。現(xiàn)在的醫(yī)療體系是根據(jù)不同科室劃分，而這個遺傳病 hEDS 會影響人體各個系統(tǒng)和器官。大多醫(yī)生都只關(guān)注自己專業(yè)相關(guān)的癥狀，很難整體診斷。

OpenAI 聯(lián)創(chuàng) Greg Brockman 的一番話點(diǎn)明，當(dāng)前先進(jìn) AI 系統(tǒng)還需不斷演進(jìn)，有望破解人類醫(yī)學(xué)難題。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

這足以成為巨大游戲規(guī)則的改變者。眾所周知，醫(yī)患對話是醫(yī)學(xué)的基石。

當(dāng)前醫(yī)學(xué)大模型已取得很大的進(jìn)展，以同理心回應(yīng)患者情緒，總結(jié)醫(yī)學(xué)摘要，根據(jù)臨床病史鑒別診斷病情等等。

不過，若想研發(fā)一個與臨床醫(yī)生專業(yè)知識相當(dāng)?shù)?AI，并且擁有強(qiáng)大的對話診斷能力，是一個巨大的挑戰(zhàn)。

如今，谷歌 DeepMind 研究團(tuán)隊(duì)推出全新的醫(yī)學(xué)對話 AI——AMIE，竟通過了「圖靈測試」！

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

論文地址：https://arxiv.org/ pdf / 2401.05654.pdf

具體來說，AMIE 采用了一種強(qiáng)化學(xué)習(xí)算法中「自我博弈」方法，可以在一個模擬環(huán)境中自我對弈，并通過自動反饋機(jī)制，可在各種疾病、醫(yī)學(xué)?？坪铜h(huán)境中進(jìn)行擴(kuò)展學(xué)習(xí)。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

在病人雙盲文本測試中，AMIE 在診斷呼吸系統(tǒng)和心血管疾病等疾病直接擊敗醫(yī)生，比初級保健醫(yī)生（PCP）更準(zhǔn)確。

與此同時，AMIE 還表現(xiàn)出一致的同理心。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

論文稱，雖然在 AMIE 在臨床應(yīng)用之前還需要進(jìn)一步的研究，但代表著邁向?qū)υ捠皆\斷人工智能的一個里程碑。

足見，谷歌最新研究暗示了 AI 驅(qū)動的診斷對話的未來。不久的將來，Greg 口中的 AGI 便會降臨。

谷歌 AI 醫(yī)生通過圖靈測試，診斷對話 AI 里程碑

除了開發(fā)和優(yōu)化用于診斷對話的人工智能系統(tǒng)外，如何評估此類系統(tǒng)也是難題。

受現(xiàn)實(shí)世界中用于衡量會診質(zhì)量和臨床溝通技巧的工具的啟發(fā)，研究人員構(gòu)建了一個試驗(yàn)性評估標(biāo)準(zhǔn)，按照病史采集、診斷準(zhǔn)確性、臨床管理、臨床溝通技巧、關(guān)系培養(yǎng)和移情等標(biāo)準(zhǔn)來評估診斷對話的過程。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

然后，研究人員設(shè)計(jì)了一項(xiàng)隨機(jī)、雙盲交叉研究，讓經(jīng)過驗(yàn)證的患者與經(jīng)過認(rèn)證的初級保健醫(yī)生（PCP）或針對診斷對話進(jìn)行優(yōu)化的人工智能系統(tǒng)通過文字聊天的方式進(jìn)行互動。

研究人員以客觀結(jié)構(gòu)化臨床考試（OSCE）的形式設(shè)置咨詢場景。

OSCE 是現(xiàn)實(shí)世界中常用的實(shí)用評估方法，以標(biāo)準(zhǔn)化和客觀的方式考察臨床醫(yī)生的技能和能力。

在典型的 OSCE 考試中，臨床醫(yī)生可能會輪流經(jīng)過多個工作場景，每個工作場景都模擬了真實(shí)的臨床場景。

例如與標(biāo)準(zhǔn)化病人演員（經(jīng)過嚴(yán)格訓(xùn)練以模擬患有特定疾病的病人）進(jìn)行會診。

會診是通過同步文本聊天工具進(jìn)行的，模仿的是當(dāng)今大多數(shù)使用 LLM 的消費(fèi)者所熟悉的界面。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

AMIE：基于 LLM 的對話式診斷研究 AI 系統(tǒng)

研究人員在真實(shí)世界的數(shù)據(jù)集上訓(xùn)練 AMIE，這些數(shù)據(jù)集包括醫(yī)學(xué)推理、醫(yī)學(xué)總結(jié)和真實(shí)世界的臨床對話。

使用通過被動收集和轉(zhuǎn)錄個人臨床訪問而開發(fā)的真實(shí)世界對話來訓(xùn)練 LLM 是可行的，但是，有兩個重大挑戰(zhàn)限制了它們在訓(xùn)練醫(yī)學(xué)對話 LLM 方面的有效性。

首先，現(xiàn)有的真實(shí)世界數(shù)據(jù)往往無法捕捉到大量的醫(yī)療條件和場景，這阻礙了數(shù)據(jù)的可擴(kuò)展性和全面性。

其次，從真實(shí)世界對話記錄中獲得的數(shù)據(jù)往往是嘈雜的，包含含糊不清的語言（包括俚語、行話、幽默和諷刺）、中斷、不合語法的語句和不明確的引用。

為了解決這些局限性，研究人員設(shè)計(jì)了一個基于自演的模擬學(xué)習(xí)環(huán)境，該環(huán)境具有自動反饋機(jī)制，用于虛擬醫(yī)療環(huán)境中的診斷性醫(yī)療對話，使研究人員能夠在多種醫(yī)療條件和環(huán)境中擴(kuò)展 AMIE 的知識和能力。

除了所描述的真實(shí)世界數(shù)據(jù)的靜態(tài)語料庫之外，研究人員還利用該環(huán)境通過不斷變化的模擬對話集對 AMIE 進(jìn)行了反復(fù)微調(diào)。

這一過程包括兩個自我循環(huán)：

（1）「內(nèi)部」自演循環(huán)，即 AMIE 利用上下文中批評者的反饋來完善其與人工智能患者模擬器進(jìn)行模擬對話的行為；

（2）「外部」自演循環(huán)，即完善的模擬對話集被納入后續(xù)的微調(diào)迭代中。

由此產(chǎn)生的新版 AMIE 可以再次參與內(nèi)循環(huán)，形成良性的持續(xù)學(xué)習(xí)循環(huán)。

此外，研究人員還采用了推理時間鏈策略（ inference time chain-of-reasoning strategy），使 AMIE 能夠根據(jù)當(dāng)前對話的情況逐步完善自己的回答，從而得出有理有據(jù)的答復(fù)。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

研究人員采用上述隨機(jī)方法測試了模擬患者（由專業(yè)的演員扮演）的問診表現(xiàn)，并與 20 名真實(shí)初級保健醫(yī)生的問診表現(xiàn)進(jìn)行了對比。

在一項(xiàng)隨機(jī)、雙盲交叉研究中，研究人員從?？浦髦吾t(yī)師和模擬患者的角度對 AMIE 和初級保健醫(yī)生進(jìn)行了評估，該研究包括來自加拿大、英國和印度 OSCE 提供者的 149 個病例場景，涉及各種?？坪图膊　Ｖ档米⒁獾氖?，研究人員的研究既不是為了模仿傳統(tǒng)的面對面 OSCE 評估，也不是為了模仿臨床醫(yī)生通常使用的文本、電子郵件、聊天或遠(yuǎn)程醫(yī)療方式。

相反，研究人員的實(shí)驗(yàn)反映了當(dāng)今消費(fèi)者與 LLM 交互的最常見方式，這是人工智能系統(tǒng)參與遠(yuǎn)程診斷對話的潛在可擴(kuò)展且熟悉的機(jī)制。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

AMIE 擊敗醫(yī)生

在這種情況下，研究人員觀察到 AMIE 在模擬診斷對話中的表現(xiàn)至少與初級保健醫(yī)生不相上下。

從?？漆t(yī)生的角度來看，AMIE 的診斷準(zhǔn)確性更高，在 32 個指標(biāo)中的 28 個指標(biāo)上表現(xiàn)更優(yōu)，從患者的角度來看，在 26 個指標(biāo)中的 24 個指標(biāo)上表現(xiàn)更優(yōu)。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

AMIE 在研究人員設(shè)定的評估中各個指標(biāo)上都超越了初級保健醫(yī)生。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

專家評定的 top-k 診斷準(zhǔn)確率。在 149 種情況下，AMIE 和初級保健醫(yī)生的頂 k 鑒別診斷 (DDx) 準(zhǔn)確率與基本真實(shí)診斷（a）和公認(rèn)鑒別診斷中列出的所有診斷（b）進(jìn)行比較。引導(dǎo)法（n=10,000）證實(shí)，經(jīng)過誤診率（FDR）校正后，AMIE 和 PCP DDx 準(zhǔn)確性之間的所有 top-k 差異均具有顯著性，p <0.05。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

由?？漆t(yī)生評估的診斷性對話和推理質(zhì)量：在 32 個指標(biāo)中的 28 個指標(biāo)上，AMIE 的性能優(yōu)于初級保健醫(yī)生，而其他指標(biāo)的性能相當(dāng)。

AMIE 成為臨床醫(yī)生助手的潛力

在最近發(fā)布的一篇預(yù)發(fā)表論文中，研究人員評估了 AMIE 系統(tǒng)早期迭代版本單獨(dú)生成 DDx 或作為臨床醫(yī)生輔助工具的能力。

二十名全科臨床醫(yī)生評估了 303 個來自《新英格蘭醫(yī)學(xué)雜志》（NEJM）臨床病理會議（CPC）的具有挑戰(zhàn)性的真實(shí)醫(yī)療病例。

每份病例報(bào)告都由兩名臨床醫(yī)生進(jìn)行評估，他們被隨機(jī)分配了兩種輔助方式之一：

1）搜索引擎和標(biāo)準(zhǔn)醫(yī)學(xué)資源的輔助，
2）這些工具之外的 AMIE 輔助。

在使用相應(yīng)的輔助工具之前，所有臨床醫(yī)生都提供了無輔助的基線 DDx。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

AMIE 的獨(dú)立性能超過了無輔助臨床醫(yī)生（前 10 名的準(zhǔn)確率為 59.1%，醫(yī)生為 33.6%，P= 0.04）。

比較兩個輔助研究方式，與沒有 AMIE 輔助的臨床醫(yī)生（24.6%，p<0.01）和使用搜索的臨床醫(yī)生（5.45%，p=0.02）相比，有 AMIE 輔助的臨床醫(yī)生的前 10 名準(zhǔn)確率更高。

此外，與沒有 AMIE 輔助的臨床醫(yī)生相比，有 AMIE 輔助的臨床醫(yī)生得出的鑒別清單更全面。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

值得注意的是，NEJM CPCs 并不代表日常臨床實(shí)踐。它們是僅針對幾百人的不常見的病例報(bào)告，為探討公平或公正等重要問題提供的空間還比較有限。

大膽而負(fù)責(zé)任的醫(yī)療保健研究--可能的藝術(shù)

在世界各地，獲得臨床專業(yè)知識的機(jī)會仍然很少。

雖然人工智能在特定的臨床應(yīng)用中顯示出巨大的前景，但參與臨床實(shí)踐中的動態(tài)、對話式診斷過程需要許多人工智能系統(tǒng)尚未表現(xiàn)出的能力。

醫(yī)生不僅要掌握知識和技能，還要恪守各種原則，包括安全和質(zhì)量、溝通、伙伴關(guān)系和團(tuán)隊(duì)合作、信任和專業(yè)精神。

在人工智能系統(tǒng)中實(shí)現(xiàn)這些特質(zhì)是一項(xiàng)鼓舞人心的挑戰(zhàn)，研究人員應(yīng)該以負(fù)責(zé)任的態(tài)度謹(jǐn)慎對待。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

AMIE 是研究人員對「可能的藝術(shù)」的探索，它是一個研究性的系統(tǒng)，用于安全地探索未來的愿景，在這個愿景中，人工智能系統(tǒng)可能會更好地與受托為研究人員提供醫(yī)療服務(wù)的技術(shù)嫻熟的臨床醫(yī)生的特質(zhì)保持一致。

它只是早期的實(shí)驗(yàn)性工作，而不是產(chǎn)品，有一些局限性，研究人員認(rèn)為值得進(jìn)行嚴(yán)格而廣泛的進(jìn)一步科學(xué)研究，以展望未來，讓會話式、移情式和診斷式人工智能系統(tǒng)變得安全、有用和易用。

局限性

研究人員的研究存在一些局限性，在解釋時應(yīng)保持適當(dāng)?shù)闹?jǐn)慎。

首先，研究人員的評估技術(shù)很可能低估了人類對話在現(xiàn)實(shí)世界中的價值，因?yàn)檠芯咳藛T研究中的臨床醫(yī)生僅限于使用一個陌生的文本聊天界面，該界面允許大規(guī)模的 LLM 患者互動，但并不代表通常的臨床實(shí)踐。

其次，任何此類研究都必須被視為漫長旅程中的第一步探索。要從研究人員在本研究中評估的 LLM 研究原型過渡到可供人們和護(hù)理人員使用的安全、強(qiáng)大的工具，還需要進(jìn)行大量的額外研究。

還有許多重要的限制因素需要解決，包括在真實(shí)世界限制條件下的實(shí)驗(yàn)表現(xiàn)，以及對健康公平與公正、隱私、穩(wěn)健性等重要主題的專門探索，以確保技術(shù)的安全性和可靠性。

AI 或?qū)氐赘淖冡t(yī)學(xué)

過去一年中大模型的發(fā)展，也讓許多人看到 AI 在醫(yī)學(xué)中的應(yīng)用潛力。

谷歌便是這個垂類模型領(lǐng)域的典型代表。

谷歌的 Med-PaLM 2 根據(jù) 14 項(xiàng)標(biāo)準(zhǔn)進(jìn)行了測試，結(jié)果發(fā)現(xiàn)可以達(dá)到醫(yī)學(xué)專家的水平。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

還記得去年，一位 4 歲小男孩得了「怪病」，3 年來看了 17 位醫(yī)生，但他們都無法解釋疼痛的具體原因。

直到小男孩母親注冊 ChatGPT 之后，將病情上傳，才終于得到了正確的診斷結(jié)果。

近來，有網(wǎng)友發(fā)文表示，在 ChatGPT 幫助下，發(fā)現(xiàn)了女朋友的過敏反應(yīng)。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

凌晨 4 點(diǎn)，她全身起了大面積的蕁麻疹，去醫(yī)院后醫(yī)生給她靜脈注射了皮質(zhì)類固醇，然后就好了。醫(yī)生說可能是防腐劑 / 保鮮劑 / 食品化學(xué)物質(zhì)引起的，但我們一直都吃得很干凈，怎么會這樣呢？

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

緊接著，他們把過去 24 小時內(nèi)吃的所有東西告訴 GPT-4，然后讓它對最可能的過敏原進(jìn)行排名。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

GPT-4 起初以為是巧克力里的榛子的原因，但后來網(wǎng)友突然想起昨天從超市買的肉，便從垃圾桶撿出來把它配料輸給 GPT-4……

配料：牛肉 (86%)、水、面包屑 (大米和玉米粉、淀粉、玉米、鹽、葡萄糖)、鹽、甜菜提取物、香料和芳香草藥、天然香氣和防腐劑 E223 (亞硫酸鹽)。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

GPT-4 立即將亞硫酸鹽列為可能導(dǎo)致蕁麻疹的最主要過敏原，通過谷歌搜索，證實(shí)它會是蕁麻疹原因之一。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

最后發(fā)現(xiàn)，這與醫(yī)生所說的相符，很可能是食物防腐劑過敏。

另外一位網(wǎng)友也分享了自己的心路歷程，以及利用 GPT 發(fā)現(xiàn)醫(yī)生們遺漏的病情聯(lián)系。

一年前，我的身體在與自己作戰(zhàn)，我的病情惡化速度之快超出了專家們的理解。然后，GPT 成為了我的 Copilot。

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

現(xiàn)在，谷歌推出的 AMIE 系統(tǒng)再次引領(lǐng)了醫(yī)療 AI 革命。

論文作者表示，「據(jù)我們所知，這是第一次為診斷對話和記錄臨床病史而設(shè)計(jì)的對話式人工智能系統(tǒng)」。

AI 醫(yī)學(xué)，未來可期。

參考資料：

https://blog.research.google/2024/01/amie-research-ai-system-for-diagnostic_12.html

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 在醫(yī)療領(lǐng)域發(fā)光：谷歌 DeepMind 全新診斷對話式系統(tǒng) AMIE 通過圖靈測試，比初級保健醫(yī)生更準(zhǔn)

谷歌 AI 醫(yī)生通過圖靈測試，診斷對話 AI 里程碑

AMIE：基于 LLM 的對話式診斷研究 AI 系統(tǒng)

AMIE 擊敗醫(yī)生

AMIE 成為臨床醫(yī)生助手的潛力

大膽而負(fù)責(zé)任的醫(yī)療保健研究--可能的藝術(shù)

局限性

AI 或?qū)氐赘淖冡t(yī)學(xué)

相關(guān)文章

谷歌 AI 醫(yī)生通過圖靈測試，診斷對話 AI 里程碑