化工儀器網(wǎng)首頁>資訊中心>項目成果>正文

中南大學團隊開發(fā)跨模態(tài)對比學習框架 顯著提升質譜化合物鑒定效率

2025年08月15日 14:14:56 來源:化工儀器網(wǎng) 作者:宋池 點擊量:4184

中南大學盧紅梅團隊開發(fā)跨模態(tài)對比學習框架CSU-MS2,突破傳統(tǒng)質譜化合物鑒定瓶頸。該框架創(chuàng)新融合外部空間注意力(ESA)模塊,實現(xiàn)質譜與分子結構的動態(tài)對齊,在百萬級化合物庫檢索中Recall@1達75.45%,顯著超越現(xiàn)有主流方法。

  近日,中南大學化學化工學院盧紅梅教授課題組在分析化學領域取得重要突破,開發(fā)出一種名為CSU-MS2的創(chuàng)新計算框架,顯著提升了基于質譜的化合物鑒定效率。該研究成果已發(fā)表于國際權威期刊《Analytical Chemistry》(中科院1區(qū)),論文標題為“CSU-MS2: A Contrastive Learning Framework for Cross-Modal Compound Identification from MS/MS Spectra to Molecular Structures”。
 

 

  基于串聯(lián)質譜(MS/MS)的化合物鑒定是代謝組學等領域的核心挑戰(zhàn)。傳統(tǒng)方法嚴重依賴現(xiàn)有質譜譜庫的覆蓋范圍,而主流譜庫如NIST23僅收錄約5.1萬種化合物,與PubChem等數(shù)據(jù)庫中超過1億的真實化學空間存在巨大差距,導致鑒定成功率受限。CSU-MS2框架旨在突破這一瓶頸。
 
  該框架創(chuàng)新性地采用跨模態(tài)對比學習技術,構建了一個統(tǒng)一表征空間來橋接質譜與分子結構兩種不同模態(tài)的信息。其核心包含兩個專門編碼器:基于Transformer的質譜編碼器用于解析MS/MS譜圖的深層特征,分子結構編碼器則處理SMILES字符串的分子信息。通過對比學習機制,框架在特征空間中拉近匹配的“譜圖-結構對”距離,同時推遠非匹配對的距離。
 
  框架的關鍵創(chuàng)新點是外部空間注意力(ESA)模塊,它采用動態(tài)特征選擇機制替代傳統(tǒng)池化操作,實現(xiàn)了質譜特征與分子結構特征的智能對齊與優(yōu)化聚合。實驗數(shù)據(jù)表明,ESA模塊顯著提升了跨模態(tài)對齊精度,使跨模態(tài)檢索的Recall@1指標提高了29.03%。在訓練策略上,團隊首先利用大規(guī)模CFM-ID模擬數(shù)據(jù)和ICEBERG異構體模擬數(shù)據(jù)集進行預訓練,隨后在高質量實驗數(shù)據(jù)集上進行微調,研究發(fā)現(xiàn)模型性能與微調數(shù)據(jù)量之間存在顯著的對數(shù)線性關系。同時,團隊構建了包含672,681個化合物、整合23個權威數(shù)據(jù)源的“質譜可搜索結構特征數(shù)據(jù)庫”(SSFDB),大幅擴展了可檢索的化學空間。
 
  在嚴格的性能評估中,CSU-MS2展現(xiàn)明顯優(yōu)勢。在包含1,001,047個化合物的參考庫測試中,其Recall@1(正確結果排名第一的比例)達到75.45%,顯著優(yōu)于CFM-ID 4.0 (68.38%)、SIRIUS 5.8.5 (64.85%)、MetFrag 2.5.0 (48.59%) 和 CMSSP (30.47%) 等主流方法。該框架展現(xiàn)出優(yōu)異的化學類別適應性,在ClassyFire定義的7個超類中Recall@1均超過64%,即使對于與訓練集結構相似度極低的化合物,Recall@3和Recall@5也分別保持在77.78%和88.89%的高水平。數(shù)據(jù)庫規(guī)模擴展至1000萬化合物時,其Recall@10表現(xiàn)仍相對穩(wěn)定。
 
  CSU-MS2在多個獨立場景驗證中表現(xiàn)出強大泛化能力。以人類代謝組數(shù)據(jù)庫(HMDB)為參考庫時全面優(yōu)于CFM-ID;針對人類血液代謝組學數(shù)據(jù)(MTBLS265),以ChEBI為參考庫時Recall@10高達91.67%;在CASMI 2022競賽數(shù)據(jù)集評估中,使用完整數(shù)據(jù)庫檢索時Recall@1達29.94%,通過擴展數(shù)據(jù)庫可提升至38.98%,Recall@10達72.32%,展現(xiàn)了優(yōu)異的同分異構體區(qū)分能力。值得注意的是,即使目標化合物未收錄于參考庫,該框架也能檢索出結構高度相似的候選分子。
 
  為推動技術應用,研究團隊開源了全部代碼和模型,并部署了基于Gradio框架的用戶友好型在線Web服務器。該平臺支持用戶上傳MSP格式的未知MS/MS譜圖,自定義前體離子質量及碰撞能量(0-50 eV),并靈活選擇內置數(shù)據(jù)庫或上傳自定義數(shù)據(jù)庫進行檢索,返回包含候選化合物結構、匹配得分及排序的結果。
關鍵詞

相關閱讀 Related Reading

查看更多+
  • 預算114萬元 江門海關技術中心采購儀器設備

    江門海關技術中心就“江門海關技術中心儀器設備購置及能力保障專項設備采購項目” 發(fā)布招標公告,預算114萬元。
    2025-10-31 09:40:09
  • 預算343萬元 湟源縣農業(yè)農村局采購農產(chǎn)品檢測儀器

    湟源縣農業(yè)農村局委托青海驍宇工程項目管理有限公司組織公開招標,采購氣相色譜三重四極桿質譜聯(lián)用儀等農產(chǎn)品檢測儀器,預算343萬元。
    2025-10-31 09:04:28
  • 預算7726萬元 新疆大學采購分析測試儀器

    新疆大學委托新疆金正建設工程管理有限公司組織公開招標,為分析測試中心采購電感耦合等離子體發(fā)射光譜儀、近紅外光譜儀等儀器設備,預算總...
    2025-10-31 08:50:25
  • 預算373萬元 內蒙古農畜產(chǎn)品質量安全中心采購檢測專用儀器

    內蒙古自治區(qū)農畜產(chǎn)品質量安全中心委托內蒙古公之一國際招標有限公司組織公開招標,采購熱裂解-氣相色譜-三重四級質譜聯(lián)用儀等檢測儀器,...
    2025-10-30 13:27:37
  • 預算290萬元 復旦大學采購高分辨液質聯(lián)用儀

    復旦大學就“高分辨率液相色譜-質譜儀采購”發(fā)布招標公告,預算290萬元。
    2025-10-30 09:56:17
  • 預算395萬 中國農業(yè)大學采購液相色譜超高分辨質譜聯(lián)用儀等

    近日,中國農業(yè)大學就“中國農業(yè)大學煙臺研究院采購液相色譜超高分辨質譜聯(lián)用儀和傅里葉紅外氣體分析儀項目”發(fā)布公開招標公告,預算金額為...
    2025-10-28 10:18:03

版權與免責聲明

  • 凡本網(wǎng)注明“來源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-化工儀器網(wǎng)合法擁有版權或有權使用的作品,未經(jīng)本網(wǎng)授權不得轉載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關法律責任。
  • 本網(wǎng)轉載并注明自其他來源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權等法律責任。
  • 如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系,否則視為放棄相關權利。
紅外熱成像技術在油氣化工領域氣體檢漏應用當中的前沿進展
關閉