- +1
醫療AI如何選?專用模型識別疾病更準,GPT-4推理能力強但成本高昂
·研究人員發現,在生物醫療領域,盡管“定制版”垂類模型應用對于醫學自然語言處理上仍有優勢,但涉及復雜的推理,尤其是醫學問答方面,閉源通用大模型GPT-4則更有明顯優勢。

澎湃新聞記者 蔣立冬 AI創意
大模型在生物醫療領域的應用情況如何?哪種模型更加適用?4月6日,《自然·通訊》(Nature Communications)雜志刊登了一項由耶魯大學醫學院的研究人員對大語言模型(LLMs)在生物醫學自然語言處理(BioNLP)中的全面評估與應用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下簡稱“指南”)。在該份指南中,研究人員選擇了12個來自 BioNLP 不同應用領域的數據集,評估了四種具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零樣本、少樣本和微調設置下的性能。
生物醫學自然語言處理(BioNLP)技術是一種將自然語言處理技術應用于生物醫學領域的交叉學科技術,核心是從大量的生物醫學文本比如醫學論文、電子病歷、基因數據庫等中自動提取有用的信息。
研究人員發現,在生物醫療領域,僅靠持續擴充預訓練數據并不能顯著提升開源生物醫學大語言模型的整體表現,針對具體醫學任務的微調才是關鍵。比如生物醫學領域特定大模型的代表PMC -LLaMA,使用了32個A100 GPU對模型進行預訓練,但最終評估并未發現該模型的性能有顯著提升。PMC -LLaMA是由上海交通大學長聘軌副教授謝偉迪研究團隊于2023年4月研發的垂類模型,基座模型使用的是LLaMA 2;研究人員發現,直接微調LLaMA 2可以獲得更好或至少相似的性能。通過微調,模型可以針對性地學習醫學領域的專業知識和復雜推理要求,從而在信息抽取、醫學問答等任務上實現顯著性能提升。
研究人員建議,未來在生物醫療應用中,應更多關注如何優化微調策略,以彌補預訓練在處理專業醫學文本時的不足。“需要一種更有效、更可持續的方法來開發特定于生物醫學領域的大語言模型。”研究人員稱。
相較于通用大模型,針對生物醫療領域里的“定制版”模型BioBERT和PubMedBERT(注釋:Bert是一款由谷歌開發的預訓練語言模型),在醫學自然語言處理表現更出色。由于經過專業的醫學數據訓練,BioBERT和PubMedBERT這類“定制版”模型能夠更精準地識別疾病名稱、基因、化學物質以及理解醫學術語,這一點表現比GPT-3.5和GPT-4為代表的通用大型語言模型更好。但涉及較為復雜的推理任務,尤其是醫學問答方面,GPT-4則更有明顯優勢,能夠“看懂并能思考”,生成更合理以及準確的回應。
對于生物醫藥行業普遍關心的大模型幻覺問題,此次研究結果表明,GPT-4在兩個數據集上幾乎沒有出現幻覺問題。在零樣本條件下,通用開源模型LLaMA 2則更容易出現幻覺問題,比如輸出時常常出現信息不完整、格式不一致或提示無關內容的情況,它產生的幻覺案例約占測試樣本的32%,比例遠超GPT-3.5和GPT-4。
盡管GPT-4在眾多評估任務中表現優異,但研究人員指出,其調用成本相當于GPT-3.5的60至100倍。對于預算有限的實際應用場景,醫學機構可能會傾向于選用成本較低且效果可接受的GPT-3.5;而對于準確性要求極高、尤其是醫學問答這類依賴復雜推理的任務中,GPT-4可能會是更理想的選擇。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司