▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

2025年GDC|AI大模型賦能生命健康行業(yè)的實(shí)踐與挑戰(zhàn)

澎湃新聞?dòng)浾?季敬杰
2025-02-23 14:40
來源:澎湃新聞
? 生命科學(xué) >
字號(hào)

在生命健康領(lǐng)域,人工智能(AI)模型正開始大展身手。AI可以協(xié)助醫(yī)生看影像報(bào)告、分析病情,也可以幫助科研人員總結(jié)海量論文、預(yù)測疾病機(jī)制、加速藥物研發(fā)。隨著Deepseek這樣性能強(qiáng)勁的開源大模型面世,生命健康行業(yè)迎來“風(fēng)口”,從業(yè)者可以用更低的成本開發(fā)更好的商業(yè)產(chǎn)品。

大模型在生命健康領(lǐng)域如何應(yīng)用?有何機(jī)遇與挑戰(zhàn)?2月21日,在上海全球開發(fā)者先鋒大會(huì)(GDC)的“開源語言大模型與AI for Science在生命健康領(lǐng)域的介紹與應(yīng)用”工作坊中,多名AI專家和產(chǎn)品開發(fā)者就這些問題展開探討。

“開源語言大模型與AI for Science在生命健康領(lǐng)域的介紹與應(yīng)用”工作坊現(xiàn)場

大模型:從通用到專業(yè)

為什么“能聊天”的大模型也能夠應(yīng)用在生命科學(xué)研究、醫(yī)學(xué)診療的各個(gè)環(huán)節(jié)?工作坊中,幾位演講者介紹了AI大模型的原理。它的核心在于模型通過學(xué)習(xí)大量真實(shí)數(shù)據(jù),理解數(shù)據(jù)的概率分布,從而作出逼近現(xiàn)實(shí)的預(yù)測。

“如果要在‘我’和‘你’之間填空,應(yīng)該怎么填?在武俠小說里可能‘打’出現(xiàn)得比較多,而在愛情小說里可能‘愛’出現(xiàn)得多。語言大模型可以預(yù)測在不同語境中,填哪個(gè)字的可能性最高。”上海達(dá)威科技創(chuàng)始人朱代輝介紹道。

在目前大模型廣泛采用的Transformer架構(gòu)中,輸入的文本會(huì)被轉(zhuǎn)化成數(shù)學(xué)向量的形式,詞與詞的關(guān)聯(lián)概率可以用向量距離來度量。模型比較這些向量,計(jì)算出它們之間的“注意力權(quán)重”,從而確定哪些詞對(duì)當(dāng)前詞更重要,這就是“自注意力”(Self-Attention)算法機(jī)制。

“這種機(jī)制允許模型在處理序列數(shù)據(jù)時(shí),同時(shí)考慮所有位置的信息,動(dòng)態(tài)地決定哪些信息更重要。”朱代輝說。為了讓模型在不同的上下文中捕捉不同的信息,Transformer模型會(huì)將注意力權(quán)重維度分成多組同時(shí)計(jì)算,每組關(guān)注序列中的不同部分,最后的結(jié)果會(huì)被合并。這種“多頭注意力”(Multi-Head Attention)機(jī)制能幫助模型從多個(gè)角度理解句子。

這些注意力權(quán)重隨后會(huì)被輸入“前饋神經(jīng)網(wǎng)絡(luò)”(Feed-Forward Neural Network)中進(jìn)行計(jì)算。這種神經(jīng)網(wǎng)絡(luò)模型由多層對(duì)應(yīng)數(shù)據(jù)特征的節(jié)點(diǎn)構(gòu)成,它能夠幫助模型對(duì)數(shù)據(jù)進(jìn)行“深度學(xué)習(xí)”,發(fā)現(xiàn)其中更復(fù)雜的模式。

這些模塊層層堆疊,產(chǎn)生大量參數(shù)來描述數(shù)據(jù)。通過調(diào)整,這些模型不止能夠?qū)W習(xí)語言,還能夠?qū)W習(xí)圖像、音頻乃至DNA序列、蛋白質(zhì)結(jié)構(gòu)等不同模態(tài)的數(shù)據(jù),將它們進(jìn)行統(tǒng)一表示。當(dāng)參數(shù)和數(shù)據(jù)量達(dá)到一定規(guī)模時(shí),模型就仿佛“開竅”一般,涌現(xiàn)出分類、預(yù)測、生成的能力。

要達(dá)到這種效果需要耗費(fèi)大量的數(shù)據(jù)和算力成本。專注于應(yīng)用的開發(fā)者可以選擇在這些已經(jīng)具備一定認(rèn)知能力的通用大模型基礎(chǔ)上進(jìn)行算法和數(shù)據(jù)的調(diào)整,開發(fā)適用于特定任務(wù)的專業(yè)大模型。

聯(lián)合利華數(shù)據(jù)AI總監(jiān)、計(jì)算生物學(xué)博士楊薈介紹了Biobert、SCGPT、Evo等多款生命科學(xué)和醫(yī)學(xué)領(lǐng)域的大模型,可以用于基因、蛋白質(zhì)等多組學(xué)信息的整合、藥物靶點(diǎn)發(fā)現(xiàn)與分子設(shè)計(jì)、醫(yī)學(xué)圖像分析等場景。

能看文獻(xiàn),能做研究,也能診斷

楊薈提到,大模型已經(jīng)成為輔助生命科學(xué)和醫(yī)學(xué)研究的得力助手。

“一天我看到家里的塑料袋被一些蟲子分泌的物質(zhì)所腐蝕,突然來了靈感,就通過Chatgpt的Deep research(深度研究)功能詢問有沒有昆蟲分泌蛋白質(zhì)降解塑料的研究。AI最后幫我找到了西班牙的一項(xiàng)研究,其中發(fā)現(xiàn)一種飛蛾幼蟲能分泌兩種能夠降解塑料的蛋白質(zhì)。”他說。

隨后,楊薈通過AI提供的資料找到了這兩種蛋白質(zhì)在數(shù)據(jù)庫中的信息。“其中一種已經(jīng)被解析,而且可以看到實(shí)際結(jié)果與蛋白質(zhì)結(jié)構(gòu)預(yù)測AI給出的結(jié)果很接近。”

一名開發(fā)者還介紹了一款在醫(yī)學(xué)和生物領(lǐng)域相當(dāng)流行的AI產(chǎn)品“txyz”。這款基于Chatgpt開發(fā)的平臺(tái)能夠幫助用戶快速查找和精讀論文,或是根據(jù)論文形成準(zhǔn)確的綜合性回答,幫助科研人員快速獲取知識(shí)。

AI大模型快速“理解”文獻(xiàn)的能力還可以用于從海量論文中提取關(guān)于生命和疾病規(guī)律的關(guān)鍵結(jié)論,比如藥物作用的靶點(diǎn)、疾病機(jī)制等,然后再用這些信息和其它實(shí)驗(yàn)數(shù)據(jù)去建立能夠預(yù)測生命和疾病活動(dòng)的模型。這被一些人稱為生命的“數(shù)字孿生”(digital twin)。

“近年來盡管科技進(jìn)步了,數(shù)據(jù)也越來越多,藥物研發(fā)的成功率卻在走低,主要原因是對(duì)藥理機(jī)制理解的缺乏。”煥一生物的副總裁蔡俊杰告訴澎湃科技。數(shù)字孿生能夠通過模擬人體對(duì)藥物的反應(yīng),從病理的角度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行預(yù)測,讓藥物研發(fā)少走彎路。

開源大模型性能的提升為數(shù)字孿生產(chǎn)品開發(fā)者帶來了新的機(jī)遇。“公開數(shù)據(jù)庫中有3700萬篇醫(yī)學(xué)文獻(xiàn),我們算了一下,如果調(diào)用Chatgpt的接口去提取收集里面的機(jī)制和參數(shù)等知識(shí),要花費(fèi)幾千萬乃至上億美元。”蔡俊杰說,“現(xiàn)在有了性能同樣強(qiáng)勁的開源模型Deepseek,就能顯著降低成本。”

在醫(yī)學(xué)診斷方面,AI大模型也正在幫助醫(yī)生提高效率,甚至取代一部分的工作。上海科莫生醫(yī)療科技有限公司的張浩曦分享了他們開發(fā)的染色體核型分析AI平臺(tái)。

在胚胎發(fā)育、細(xì)胞分裂時(shí),DNA緊密壓縮在一起,成為我們能觀測到的染色體,它們的功能和形態(tài)正常很重要。“50%的自然流產(chǎn)是由染色體異常導(dǎo)致的。而因?yàn)槁z等原因,在每150個(gè)新生兒中,平均有1個(gè)染色體異常,這往往意味著畸形或者基因病,是一件很悲傷的事情。”張浩曦說。

染色體核型分析是醫(yī)生排除染色體異常的主要手段。人有23對(duì)染色體,但在觀測時(shí)往往不是成對(duì)出現(xiàn)的。在核型分析中,醫(yī)生需要“看圖配對(duì)”,再與正常的染色體進(jìn)行對(duì)比,看看有沒有缺失、重復(fù)等異常現(xiàn)象。

“這個(gè)過程周期長,很枯燥,費(fèi)眼睛,搞得醫(yī)生也很疲勞。”張浩曦說。科莫生開發(fā)了一種核型分析大模型,幫助醫(yī)生進(jìn)行染色體圖像的自動(dòng)識(shí)別、配對(duì)和分析。該產(chǎn)品已經(jīng)拿到了四川省的二類醫(yī)療器械證。

“原先28天才能拿的染色體報(bào)告,現(xiàn)在在AI的輔助下1天就能出。”他說,這提高了核型檢測的效率,降低了成本,放大了醫(yī)院的診療能力。“做得快了,那么除了孕檢之外,比如那些可能接觸輻射的高危人群有需要的人也可以去做。”

挑戰(zhàn)與風(fēng)險(xiǎn)

生命科學(xué)研究要求專業(yè)性和準(zhǔn)確性,而醫(yī)學(xué)診斷更是直接關(guān)系到患者的福祉。盡管AI大模型正在各個(gè)應(yīng)用場景中迅速落地,但其中還是存在著不少風(fēng)險(xiǎn)與挑戰(zhàn),需要開發(fā)者和政策標(biāo)準(zhǔn)制定者共同面對(duì)和克服。

在西湖大學(xué)博士研究生燕陽眼里,AI輔助診斷還是有很多風(fēng)險(xiǎn)的:“如果問一些大模型,孕婦能用什么藥,它會(huì)提示四環(huán)素是可以使用的,但這個(gè)藥肯定不能用。大模型不知道,是因?yàn)樗鼪]學(xué)到過。”

他介紹道,在大語言模型中,數(shù)據(jù)訓(xùn)練的本質(zhì)是去盡可能地接近訓(xùn)練數(shù)據(jù)。如果數(shù)據(jù)完整、準(zhǔn)確、質(zhì)量高,那么回答的質(zhì)量也就高。如果前面出現(xiàn)錯(cuò)誤,就會(huì)導(dǎo)致后續(xù)生成中錯(cuò)誤的累積,導(dǎo)致答案失真。

因此,追求更高質(zhì)量的數(shù)據(jù)成為AI產(chǎn)品開發(fā)者共同關(guān)注的主題。燕陽認(rèn)為,很多人對(duì)生命健康領(lǐng)域數(shù)據(jù)的認(rèn)識(shí)存在誤區(qū),導(dǎo)致產(chǎn)品開發(fā)陷入瓶頸,乃至產(chǎn)生風(fēng)險(xiǎn)。

“有人覺得有海量數(shù)據(jù)就能訓(xùn)練好模型,數(shù)據(jù)越多模型性能越好,這是不對(duì)的。”他說。醫(yī)院數(shù)據(jù)往往是非標(biāo)準(zhǔn)化的,比如醫(yī)囑、不同設(shè)備產(chǎn)生的檢測結(jié)果等等,難以直接用來訓(xùn)練AI模型。有些數(shù)據(jù)缺乏標(biāo)注,這些可能會(huì)導(dǎo)致模型學(xué)習(xí)到的概率分布偏離真實(shí)的醫(yī)學(xué)推理邏輯。

“比如說,超過90%的胸片報(bào)告只標(biāo)注異常結(jié)果,正常的話就沒有標(biāo)注。那AI可能會(huì)學(xué)到‘如果沒有標(biāo)注,則為正常’的邏輯,這顯然是不對(duì)的,會(huì)導(dǎo)致誤檢率上升。”燕陽舉例道。

由于缺乏更加完整的醫(yī)學(xué)數(shù)據(jù),有些醫(yī)學(xué)AI研究可能會(huì)嘗試數(shù)據(jù)“蒸餾”的方法,用ChatGPT等大模型生成數(shù)據(jù),然后用這些數(shù)據(jù)來訓(xùn)練自己參數(shù)相對(duì)較少的模型。這樣做的好處是能讓小模型逼近大模型的能力,但壞處是大模型的輸出本身可能存在問題。

“由于通用的大模型往往缺少醫(yī)學(xué)知識(shí),可能導(dǎo)致對(duì)罕見病等疾病的忽略。小模型將這些傾向作為‘事實(shí)’進(jìn)行學(xué)習(xí),可能會(huì)變得‘過度自信’且容易犯錯(cuò)。”他說。

燕陽認(rèn)為,這些問題可以通過讓數(shù)據(jù)變得更加完整和專業(yè)來解決,比如增加專家標(biāo)注和更多醫(yī)學(xué)知識(shí),讓AI學(xué)會(huì)“是什么”和“為什么”。還可以通過展示推理軌跡(CoT)等算法來完善AI的推理過程,把自相矛盾或者錯(cuò)誤的邏輯剔除出去。

國內(nèi)首個(gè)AI安全研究員、美國生命未來研究所的朱小虎告訴澎湃科技,在風(fēng)險(xiǎn)評(píng)估中,大語言模型已經(jīng)展現(xiàn)出了欺騙、避免自身毀滅、傳播對(duì)人有害的信息等問題。“基于專業(yè)知識(shí)的醫(yī)學(xué)模型相對(duì)會(huì)好很多。但如果這些模型是以通用大模型為基座訓(xùn)練的話,底層的傾向也可能會(huì)傳遞到模型中。”他說。

據(jù)悉,2025全球開發(fā)者先鋒大會(huì)于2月21日至2月23日在上海舉辦,主題為“模塑全球,無限可能”,旨在促進(jìn)人工智能產(chǎn)業(yè)集群的培育,推動(dòng)基礎(chǔ)大模型與算力、語料、垂類應(yīng)用場景等人工智能企業(yè)深度融合,打造以開發(fā)者為中心的開發(fā)者節(jié)。

    責(zé)任編輯:宦艷紅
    圖片編輯:金潔
    校對(duì):張亮亮
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            主站蜘蛛池模板: 宿迁市| 黄骅市| 团风县| 和平县| 响水县| 大城县| 浦城县| 津市市| 绥阳县| 航空| 扶余县| 龙岩市| 九台市| 肇源县| 桐乡市| 利津县| 巩义市| 岳阳县| 鸡西市| 通化市| 彭阳县| 锡林浩特市| 淳化县| 岚皋县| 南木林县| 凤翔县| 惠东县| 新余市| 蚌埠市| 南和县| 南涧| 子长县| 娄底市| 莱州市| 达尔| 通江县| 徐闻县| 南康市| 莎车县| 花垣县| 肇源县|