- +1
醫(yī)療AI如何選?專用模型識別疾病更準,GPT-4推理能力強但成本高昂
·研究人員發(fā)現(xiàn),在生物醫(yī)療領域,盡管“定制版”垂類模型應用對于醫(yī)學自然語言處理上仍有優(yōu)勢,但涉及復雜的推理,尤其是醫(yī)學問答方面,閉源通用大模型GPT-4則更有明顯優(yōu)勢。

澎湃新聞記者 蔣立冬 AI創(chuàng)意
大模型在生物醫(yī)療領域的應用情況如何?哪種模型更加適用?4月6日,《自然·通訊》(Nature Communications)雜志刊登了一項由耶魯大學醫(yī)學院的研究人員對大語言模型(LLMs)在生物醫(yī)學自然語言處理(BioNLP)中的全面評估與應用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下簡稱“指南”)。在該份指南中,研究人員選擇了12個來自 BioNLP 不同應用領域的數(shù)據(jù)集,評估了四種具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零樣本、少樣本和微調設置下的性能。
生物醫(yī)學自然語言處理(BioNLP)技術是一種將自然語言處理技術應用于生物醫(yī)學領域的交叉學科技術,核心是從大量的生物醫(yī)學文本比如醫(yī)學論文、電子病歷、基因數(shù)據(jù)庫等中自動提取有用的信息。
研究人員發(fā)現(xiàn),在生物醫(yī)療領域,僅靠持續(xù)擴充預訓練數(shù)據(jù)并不能顯著提升開源生物醫(yī)學大語言模型的整體表現(xiàn),針對具體醫(yī)學任務的微調才是關鍵。比如生物醫(yī)學領域特定大模型的代表PMC -LLaMA,使用了32個A100 GPU對模型進行預訓練,但最終評估并未發(fā)現(xiàn)該模型的性能有顯著提升。PMC -LLaMA是由上海交通大學長聘軌副教授謝偉迪研究團隊于2023年4月研發(fā)的垂類模型,基座模型使用的是LLaMA 2;研究人員發(fā)現(xiàn),直接微調LLaMA 2可以獲得更好或至少相似的性能。通過微調,模型可以針對性地學習醫(yī)學領域的專業(yè)知識和復雜推理要求,從而在信息抽取、醫(yī)學問答等任務上實現(xiàn)顯著性能提升。
研究人員建議,未來在生物醫(yī)療應用中,應更多關注如何優(yōu)化微調策略,以彌補預訓練在處理專業(yè)醫(yī)學文本時的不足。“需要一種更有效、更可持續(xù)的方法來開發(fā)特定于生物醫(yī)學領域的大語言模型。”研究人員稱。
相較于通用大模型,針對生物醫(yī)療領域里的“定制版”模型BioBERT和PubMedBERT(注釋:Bert是一款由谷歌開發(fā)的預訓練語言模型),在醫(yī)學自然語言處理表現(xiàn)更出色。由于經(jīng)過專業(yè)的醫(yī)學數(shù)據(jù)訓練,BioBERT和PubMedBERT這類“定制版”模型能夠更精準地識別疾病名稱、基因、化學物質以及理解醫(yī)學術語,這一點表現(xiàn)比GPT-3.5和GPT-4為代表的通用大型語言模型更好。但涉及較為復雜的推理任務,尤其是醫(yī)學問答方面,GPT-4則更有明顯優(yōu)勢,能夠“看懂并能思考”,生成更合理以及準確的回應。
對于生物醫(yī)藥行業(yè)普遍關心的大模型幻覺問題,此次研究結果表明,GPT-4在兩個數(shù)據(jù)集上幾乎沒有出現(xiàn)幻覺問題。在零樣本條件下,通用開源模型LLaMA 2則更容易出現(xiàn)幻覺問題,比如輸出時常常出現(xiàn)信息不完整、格式不一致或提示無關內(nèi)容的情況,它產(chǎn)生的幻覺案例約占測試樣本的32%,比例遠超GPT-3.5和GPT-4。
盡管GPT-4在眾多評估任務中表現(xiàn)優(yōu)異,但研究人員指出,其調用成本相當于GPT-3.5的60至100倍。對于預算有限的實際應用場景,醫(yī)學機構可能會傾向于選用成本較低且效果可接受的GPT-3.5;而對于準確性要求極高、尤其是醫(yī)學問答這類依賴復雜推理的任務中,GPT-4可能會是更理想的選擇。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司