▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

2025年GDC|AI大模型賦能生命健康行業的實踐與挑戰

澎湃新聞記者 季敬杰
2025-02-23 14:40
來源:澎湃新聞
? 生命科學 >
字號

在生命健康領域,人工智能(AI)模型正開始大展身手。AI可以協助醫生看影像報告、分析病情,也可以幫助科研人員總結海量論文、預測疾病機制、加速藥物研發。隨著Deepseek這樣性能強勁的開源大模型面世,生命健康行業迎來“風口”,從業者可以用更低的成本開發更好的商業產品。

大模型在生命健康領域如何應用?有何機遇與挑戰?2月21日,在上海全球開發者先鋒大會(GDC)的“開源語言大模型與AI for Science在生命健康領域的介紹與應用”工作坊中,多名AI專家和產品開發者就這些問題展開探討。

“開源語言大模型與AI for Science在生命健康領域的介紹與應用”工作坊現場

大模型:從通用到專業

為什么“能聊天”的大模型也能夠應用在生命科學研究、醫學診療的各個環節?工作坊中,幾位演講者介紹了AI大模型的原理。它的核心在于模型通過學習大量真實數據,理解數據的概率分布,從而作出逼近現實的預測。

“如果要在‘我’和‘你’之間填空,應該怎么填?在武俠小說里可能‘打’出現得比較多,而在愛情小說里可能‘愛’出現得多。語言大模型可以預測在不同語境中,填哪個字的可能性最高。”上海達威科技創始人朱代輝介紹道。

在目前大模型廣泛采用的Transformer架構中,輸入的文本會被轉化成數學向量的形式,詞與詞的關聯概率可以用向量距離來度量。模型比較這些向量,計算出它們之間的“注意力權重”,從而確定哪些詞對當前詞更重要,這就是“自注意力”(Self-Attention)算法機制。

“這種機制允許模型在處理序列數據時,同時考慮所有位置的信息,動態地決定哪些信息更重要。”朱代輝說。為了讓模型在不同的上下文中捕捉不同的信息,Transformer模型會將注意力權重維度分成多組同時計算,每組關注序列中的不同部分,最后的結果會被合并。這種“多頭注意力”(Multi-Head Attention)機制能幫助模型從多個角度理解句子。

這些注意力權重隨后會被輸入“前饋神經網絡”(Feed-Forward Neural Network)中進行計算。這種神經網絡模型由多層對應數據特征的節點構成,它能夠幫助模型對數據進行“深度學習”,發現其中更復雜的模式。

這些模塊層層堆疊,產生大量參數來描述數據。通過調整,這些模型不止能夠學習語言,還能夠學習圖像、音頻乃至DNA序列、蛋白質結構等不同模態的數據,將它們進行統一表示。當參數和數據量達到一定規模時,模型就仿佛“開竅”一般,涌現出分類、預測、生成的能力。

要達到這種效果需要耗費大量的數據和算力成本。專注于應用的開發者可以選擇在這些已經具備一定認知能力的通用大模型基礎上進行算法和數據的調整,開發適用于特定任務的專業大模型。

聯合利華數據AI總監、計算生物學博士楊薈介紹了Biobert、SCGPT、Evo等多款生命科學和醫學領域的大模型,可以用于基因、蛋白質等多組學信息的整合、藥物靶點發現與分子設計、醫學圖像分析等場景。

能看文獻,能做研究,也能診斷

楊薈提到,大模型已經成為輔助生命科學和醫學研究的得力助手。

“一天我看到家里的塑料袋被一些蟲子分泌的物質所腐蝕,突然來了靈感,就通過Chatgpt的Deep research(深度研究)功能詢問有沒有昆蟲分泌蛋白質降解塑料的研究。AI最后幫我找到了西班牙的一項研究,其中發現一種飛蛾幼蟲能分泌兩種能夠降解塑料的蛋白質。”他說。

隨后,楊薈通過AI提供的資料找到了這兩種蛋白質在數據庫中的信息。“其中一種已經被解析,而且可以看到實際結果與蛋白質結構預測AI給出的結果很接近。”

一名開發者還介紹了一款在醫學和生物領域相當流行的AI產品“txyz”。這款基于Chatgpt開發的平臺能夠幫助用戶快速查找和精讀論文,或是根據論文形成準確的綜合性回答,幫助科研人員快速獲取知識。

AI大模型快速“理解”文獻的能力還可以用于從海量論文中提取關于生命和疾病規律的關鍵結論,比如藥物作用的靶點、疾病機制等,然后再用這些信息和其它實驗數據去建立能夠預測生命和疾病活動的模型。這被一些人稱為生命的“數字孿生”(digital twin)。

“近年來盡管科技進步了,數據也越來越多,藥物研發的成功率卻在走低,主要原因是對藥理機制理解的缺乏。”煥一生物的副總裁蔡俊杰告訴澎湃科技。數字孿生能夠通過模擬人體對藥物的反應,從病理的角度對實驗結果進行預測,讓藥物研發少走彎路。

開源大模型性能的提升為數字孿生產品開發者帶來了新的機遇。“公開數據庫中有3700萬篇醫學文獻,我們算了一下,如果調用Chatgpt的接口去提取收集里面的機制和參數等知識,要花費幾千萬乃至上億美元。”蔡俊杰說,“現在有了性能同樣強勁的開源模型Deepseek,就能顯著降低成本。”

在醫學診斷方面,AI大模型也正在幫助醫生提高效率,甚至取代一部分的工作。上海科莫生醫療科技有限公司的張浩曦分享了他們開發的染色體核型分析AI平臺。

在胚胎發育、細胞分裂時,DNA緊密壓縮在一起,成為我們能觀測到的染色體,它們的功能和形態正常很重要。“50%的自然流產是由染色體異常導致的。而因為漏檢等原因,在每150個新生兒中,平均有1個染色體異常,這往往意味著畸形或者基因病,是一件很悲傷的事情。”張浩曦說。

染色體核型分析是醫生排除染色體異常的主要手段。人有23對染色體,但在觀測時往往不是成對出現的。在核型分析中,醫生需要“看圖配對”,再與正常的染色體進行對比,看看有沒有缺失、重復等異常現象。

“這個過程周期長,很枯燥,費眼睛,搞得醫生也很疲勞。”張浩曦說。科莫生開發了一種核型分析大模型,幫助醫生進行染色體圖像的自動識別、配對和分析。該產品已經拿到了四川省的二類醫療器械證。

“原先28天才能拿的染色體報告,現在在AI的輔助下1天就能出。”他說,這提高了核型檢測的效率,降低了成本,放大了醫院的診療能力。“做得快了,那么除了孕檢之外,比如那些可能接觸輻射的高危人群有需要的人也可以去做。”

挑戰與風險

生命科學研究要求專業性和準確性,而醫學診斷更是直接關系到患者的福祉。盡管AI大模型正在各個應用場景中迅速落地,但其中還是存在著不少風險與挑戰,需要開發者和政策標準制定者共同面對和克服。

在西湖大學博士研究生燕陽眼里,AI輔助診斷還是有很多風險的:“如果問一些大模型,孕婦能用什么藥,它會提示四環素是可以使用的,但這個藥肯定不能用。大模型不知道,是因為它沒學到過。”

他介紹道,在大語言模型中,數據訓練的本質是去盡可能地接近訓練數據。如果數據完整、準確、質量高,那么回答的質量也就高。如果前面出現錯誤,就會導致后續生成中錯誤的累積,導致答案失真。

因此,追求更高質量的數據成為AI產品開發者共同關注的主題。燕陽認為,很多人對生命健康領域數據的認識存在誤區,導致產品開發陷入瓶頸,乃至產生風險。

“有人覺得有海量數據就能訓練好模型,數據越多模型性能越好,這是不對的。”他說。醫院數據往往是非標準化的,比如醫囑、不同設備產生的檢測結果等等,難以直接用來訓練AI模型。有些數據缺乏標注,這些可能會導致模型學習到的概率分布偏離真實的醫學推理邏輯。

“比如說,超過90%的胸片報告只標注異常結果,正常的話就沒有標注。那AI可能會學到‘如果沒有標注,則為正常’的邏輯,這顯然是不對的,會導致誤檢率上升。”燕陽舉例道。

由于缺乏更加完整的醫學數據,有些醫學AI研究可能會嘗試數據“蒸餾”的方法,用ChatGPT等大模型生成數據,然后用這些數據來訓練自己參數相對較少的模型。這樣做的好處是能讓小模型逼近大模型的能力,但壞處是大模型的輸出本身可能存在問題。

“由于通用的大模型往往缺少醫學知識,可能導致對罕見病等疾病的忽略。小模型將這些傾向作為‘事實’進行學習,可能會變得‘過度自信’且容易犯錯。”他說。

燕陽認為,這些問題可以通過讓數據變得更加完整和專業來解決,比如增加專家標注和更多醫學知識,讓AI學會“是什么”和“為什么”。還可以通過展示推理軌跡(CoT)等算法來完善AI的推理過程,把自相矛盾或者錯誤的邏輯剔除出去。

國內首個AI安全研究員、美國生命未來研究所的朱小虎告訴澎湃科技,在風險評估中,大語言模型已經展現出了欺騙、避免自身毀滅、傳播對人有害的信息等問題。“基于專業知識的醫學模型相對會好很多。但如果這些模型是以通用大模型為基座訓練的話,底層的傾向也可能會傳遞到模型中。”他說。

據悉,2025全球開發者先鋒大會于2月21日至2月23日在上海舉辦,主題為“模塑全球,無限可能”,旨在促進人工智能產業集群的培育,推動基礎大模型與算力、語料、垂類應用場景等人工智能企業深度融合,打造以開發者為中心的開發者節。

    責任編輯:宦艷紅
    圖片編輯:金潔
    校對:張亮亮
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 青浦区| 宜川县| 陵川县| 淮南市| 阳山县| 阳新县| 石首市| 永福县| 富民县| 芦溪县| 全椒县| 长治市| 南乐县| 英山县| 沧州市| 赤城县| 甘德县| 武山县| 天镇县| 巨鹿县| 信宜市| 余庆县| 土默特左旗| 新密市| 宜兰县| 宣威市| 江安县| 安吉县| 拉孜县| 顺平县| 且末县| 上杭县| 洪洞县| 尼勒克县| 长顺县| 苗栗市| 富裕县| 云南省| 乐至县| 康保县| 新巴尔虎右旗|