- +1
基于放射影像的臨床診斷中,AI模型尚未達到實際應用水平
一項新研究顯示,基于放射影像進行臨床診斷的 AI 模型尚未成熟。
研究人員常認為放射學是 AI 有潛力革新的領域,因為視覺或多模態模型在識別圖像方面表現出色。基于充分的訓練,假設 AI 模型能夠像醫學專家一樣準確讀取 X 光片和計算機斷層掃描 (CT) 圖像。
為了驗證這一假設,來自 Johns Hopkins University、University of Bologna、Istanbul Medipol University 和 Italian Institute of Technology 的研究人員認為,首先需要構建一個更好的基準測試來評估視覺語言模型。
作者 Yixiong Chen, Wenjie Xiao, Pedro R. A. S. Bassi, Xinze Zhou, Sezgin Er, Ibrahim Ethem Hamamci, Zongwei Zhou 和 Alan Yuille 在題為 "Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering"(視覺語言模型準備好用于臨床診斷了嗎?以腫瘤為中心的 3D 醫學視覺問答基準)的預印本論文中解釋了多個原因。
首先,大多數現有臨床數據集規模較小且記錄不夠多樣化,科學家們認為這是由于讓專家標注數據所需的高成本和耗時所致。
其次,這些數據集通常依賴 2D 數據,這意味著 AI 有時無法從 3D CT 掃描中獲得學習資源。
第三,用于自動評估機器學習模型的算法,如 BLEU 和 ROUGE,在處理簡短且基于事實的醫學答案時表現不佳。
此外,現有數據集可能采用了私有和機構內部的數據,這些數據無法供后續研究使用。
因此,作者開發了 DeepTumorVQA——一個專注于 CT 掃描中腹部腫瘤的診斷視覺問答 (VQA) 基準測試。
DeepTumorVQA 基于來自 17 個公共數據集的 9,262 個 CT 體積(共 3.7M 切片)構建,并輔以 395,000 個專家級問題,涉及識別、測量、視覺推理和醫學推理四個類別。
23 位持證放射科醫師花費六個月時間手動標注了患者肝臟、腎臟、胰腺和結腸上 3D 圖像中顯示的 7,629 個病灶,隨后他們還共同核對標注以達成共識。病灶指的是掃描中顯示的異常組織,診斷可以確定其是良性還是惡性。
依托這一基準數據,研究人員著手評估五個專為醫療設計的視覺模型:RadFM、M3D(其中一個基于 Llama2,另一個基于 Phi-3)、Merlin 和 CT-CHAT。
圖表展示了 DeepTumorVQA 的問題(點擊放大)。
作者從四個類別對這些模型進行了評估:器官和病灶體積測量的準確性;識別諸如病灶等特征的能力;基于視覺信息進行推理的能力(例如判斷兩只腎臟中哪只較大);以及醫學推理(例如鑒別某一病灶是良性囊腫還是惡性腫瘤)。
符合 Betteridge 定律,作者對 “視覺語言模型是否準備好進行臨床診斷?” 的回答是 “不”。
在測量任務中,這些模型的表現明顯優于隨機猜測;盡管在計數任務中,當以多選題形式呈現時,它們表現優于自由回答形式。
而在識別任務中,模型表現則相對遜色。所有模型均能識別病灶、囊腫與腫瘤,成功率在 65% 到 86% 不等,但研究人員發現這些模型的回答未能捕捉到細微的視覺線索。
在視覺推理任務中,模型在多步推理上表現尚可,但在腎臟體積對比等任務上存在困難,研究人員歸因于 “雙側推理和精確定位的難度”。
被測試的模型在醫學推理方面遇到的難題最多,研究人員指出這是因為此類任務要求整合訓練數據中未曾涉及的信息。
作者總結道:“總體來看,雖然現代視覺語言模型在基礎及識別密集型任務中展現出潛力,但其在實際診斷中的應用目前仍受限于弱視覺信號、不可靠的數值處理以及膚淺的推理鏈。”
AI 可以在輔助角色上幫助臨床醫師,但尚不足以取代醫學專家的判斷。 (R)
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司