▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

使用B細胞和T細胞受體序列的機器學習進行疾病診斷

2025-04-17 11:56
來源:澎湃新聞·澎湃號·湃客
字號

設計了實驗方案和數據分析框架,用于識別與感染性疾病、免疫性疾病或疫苗接種等干預措施相關的人類BCR重鏈和TCRβ鏈特征。該方法名為“免疫診斷機器學習”(Mal-ID),結合了傳統免疫學分析(如檢測同一疾病個體間共享序列)與人工智能(AI)蛋白質序列模型(稱為蛋白質語言模型)衍生的復雜特征。盡管AI系統的決策過程可能難以解釋,但該團隊開發了理解模型診斷預測原理的方法。

技術實現路徑如下圖所示:

從血液樣本到疾病分類的免疫受體測序流程:對593個體進行B/T細胞受體測序后,通過(1)受體群體/“庫”組成分析;(2)決定抗原特異性的CDR3序列區域聚類;(3)蛋白質語言建模,最終基于BCR/TCR信息實現高精度疾病分類(交叉驗證中取得優異的多分類AUROC評分)。

一、Mal-ID技術框架

圖1. Mal-ID技術框架

首先從不同疾病狀態患者的血液樣本中獲取BCR重鏈和TCRβ鏈的基因庫數據(A部分);隨后采用三類特征模型進行分析——包括基因片段使用頻率與突變率(模型1)、CDR3序列聚類(模型2)和基于蛋白質語言模型的CDR3結構預測(模型3)(B部分);通過集成6個基礎模型(3個BCR+3個TCR)構建邏輯回歸分類器,實現對保留測試集的疾病概率預測(C部分);該框架支持驗證V基因的疾病特異性信號(D部分),并可根據臨床需求靈活調整為多病篩查或單病診斷模式(E部分)。整個流程通過整合免疫受體庫的多維度特征,實現了高精度(AUROC 0.986)的免疫狀態分類。

二、聯合分析BCR和TCR數據

圖2. Mal-ID通過IgH和TRB序列進行疾病分類

通過整合B細胞受體(IgH)和T細胞受體(TRB)序列數據進行疾病分類的綜合性能:集成模型在550個獨立測試樣本中實現高精度分類(A),多模型比較顯示結合BCR和TCR數據的集成方法(AUROC0.98)顯著優于單一模型或單數據類型(B);各疾病類別分類效能均衡(C),且模型對正確預測結果具有更高置信度(D)。特別地,成人狼瘡患者的誤分類與較低臨床活動指數(SLEDAI)相關(E),表明模型可能捕捉到治療緩解期的免疫特征變化。此外,從多疾病分類器衍生的狼瘡專用診斷模型可靈活調整閾值實現93%靈敏度/90%特異性的平衡性能(F)。該結果驗證了聯合分析BCR和TCR數據對提升免疫疾病診斷可靠性的關鍵作用。

三、語言模型重現免疫學知識

圖3. 模型3通過蛋白質語言嵌入識別的疾病相關IGHV基因與同種型

模型3通過蛋白質語言嵌入技術識別的疾病特異性IGHV基因和同種型特征:基于SHAP值分析顯示,COVID-19預測主要依賴IGHV1-24/IGHV2-70基因與IgG同種型(A),HIV與突變型IgM/D和IGHV1-2/IGHV4-34基因顯著相關(B),流感疫苗接種響應集中于IGHV3-23基因及IgG/突變型IgM/D(C),而狼瘡和1型糖尿病(T1D)則分別與IGHV4-34/IGHV4-59基因及IgA(D)、多種同種型特征(E)具有強關聯。這些發現不僅與已知的病原體特異性抗體反應(如SARS-CoV-2的IgG優勢)和自身免疫病機制(如狼瘡的IgA自身抗體)相吻合,更通過量化不同免疫球蛋白類型的貢獻,揭示了疾病特異性的B細胞應答模式。

圖4. 模型2與模型3從COVID-19患者數據中

學習SARS-CoV-2抗原特異性序列模式

Mal-ID的模型2(CDR3聚類)和模型3(蛋白質語言模型)能夠從COVID-19患者數據中自主識別SARS-CoV-2抗原特異性抗體序列特征:模型2通過保守的公共克隆識別(IGHV/IGHJ基因和CDR3長度匹配)可精確檢測部分已知結合序列(A-D,如IGHV1-24基因中達100%精確度但召回率低),而模型3則展現出更全面的識別能力——在未接觸訓練數據的情況下,對CoV-AbDab數據庫中已驗證的SARS-CoV-2結合序列的預測概率顯著高于健康供體序列(E,置換檢驗P=0),跨IGHV基因的AUROC最高達0.78(G),且對模型2未覆蓋的序列仍保持有效區分(H,AUROC≦0.75)。兩種模型互補性強:模型3在相同精確度下比模型2召回率更高(I),但需權衡更多假陽性,這一發現揭示了機器學習可從復雜免疫受體庫中提取抗原特異性信號,為病原體特異性抗體發現提供了新范式。

最后,作者強調使用來自大量患者的經驗數據,這些患者持續收集了IgH和TRB免疫受體測序數據,這些數據伴隨著對批次效應和混雜因素的潛在擔憂,并試圖解決這些問題。對所有樣本使用了標準化的受體測序方案和生物信息學分析,并確定基于人口統計學協變量的模型無法像IgH和TRB特征那樣準確地對患者免疫狀態進行分類。從主要分析中保留了患者隊列,并確認他們在驗證步驟中被正確分類。來自其他實驗室的完全獨立隊列的性能進一步表明,Mal-ID 泛化于獨立數據,不適合潛在的、未知的隱藏變量。Mal-ID 框架似乎捕獲了免疫反應的基本原理并推廣到單獨的臨床隊列。區分Covid-19、HIV感染、狼瘡、T1D和健康的任務被用來證明該方法的潛力。需要額外的測試,以便在臨床研究中確定對具有不同和可變患病率的特定疾病的敏感性和特異性的適當臨界值,并進一步評估最佳樣本量和測序深度。該方法的任何結果都需要根據患者的其他臨床評估和實驗室測試進行解釋。其他需要解決的重要主題是同一患者可能存在多種疾病或合并癥,針對特定疾病的不同嚴重程度或亞型的模型開發,使用其他種類含有淋巴細胞的標本(如組織活檢)的價值,以及確定先前模型中未包含的疾病證據的可能性, 例如在未來大流行中可能發生的事件。

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 左贡县| 兴文县| 天津市| 土默特左旗| 胶南市| 洛川县| 搜索| 丹阳市| 云阳县| 克拉玛依市| 普洱| 卢湾区| 工布江达县| 滦平县| 绩溪县| 正安县| 石阡县| 神农架林区| 镇雄县| 错那县| 古丈县| 蒙山县| 洪江市| 青川县| 道孚县| 马尔康县| 湘潭市| 兴化市| 辽阳县| 建昌县| 中卫市| 金昌市| 仁寿县| 舒城县| 绥芬河市| 扶余县| 江口县| 诸暨市| 屯留县| 囊谦县| 昭平县|