[發(fā)明專利]用于評價生物分子交聯(lián)質(zhì)譜鑒定隨機性的半監(jiān)督學習方法有效
| 申請?zhí)枺?/td> | 202010938863.9 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112151109B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設(shè)計)人: | 張麗華;張瑋杰;楊開廣;單亦初;劉健慧;張玉奎 | 申請(專利權(quán))人: | 中國科學院大連化學物理研究所 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B20/00;G16B40/00;G16B50/00 |
| 代理公司: | 沈陽科苑專利商標代理有限公司 21002 | 代理人: | 王倩 |
| 地址: | 116023 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 評價 生物 分子 交聯(lián) 鑒定 隨機性 監(jiān)督 學習方法 | ||
本發(fā)明涉及用于評價生物分子交聯(lián)質(zhì)譜鑒定隨機性的半監(jiān)督學習方法,該評價方法,以鑒定結(jié)果中的生物分子信息、數(shù)據(jù)庫檢索得分情況、質(zhì)譜和色譜信息作為基本特征,使用多種半監(jiān)督分類模型作為框架,以基本特征或基本特征的映射組合輸入框架,可以實現(xiàn)對交聯(lián)結(jié)果中高隨機性和低隨機性的分類。基于本發(fā)明的評價方法,可以為后續(xù)的生物分子相互作用網(wǎng)絡(luò)建立、生物分子結(jié)構(gòu)構(gòu)建模擬提供高質(zhì)量的交聯(lián)信息。
技術(shù)領(lǐng)域
本發(fā)明屬于計算蛋白質(zhì)組學領(lǐng)域,具體為一種用于評價生物分子交聯(lián)質(zhì)譜鑒定隨機性的半監(jiān)督學習方法,能夠為后續(xù)使用交聯(lián)信息而進行的生物分子相互作用分析、生物分子結(jié)構(gòu)建模提供更加可靠的依據(jù)。
背景技術(shù)
化學交聯(lián)質(zhì)譜技術(shù)是一種能夠分析樣品中生物分子相互作用以及生物分子空間信息的技術(shù),其特點是能夠有機的將相互作用信息與分子空間信息相結(jié)合;相比較于傳統(tǒng)的生物分析結(jié)構(gòu)技術(shù)(例如:冷凍電鏡、核磁共振波譜),其優(yōu)點在于可以高通量的分析樣品中的相互作用信息;相比較于傳統(tǒng)的生物分子相互作用技術(shù)(例如:酵母雙雜交),其優(yōu)點在于可以在獲得相互作用信息的同時,更高分辨率的得到相互作用界面的信息。(C.Yu,L.Huang,Anal.Chem.,2018,90,144-165.)
化學交聯(lián)質(zhì)譜技術(shù)的技術(shù)流程是將待分析的樣品與交聯(lián)試劑進行混合反應(yīng),經(jīng)過樣品預處理步驟后,進入液相色譜-質(zhì)譜系統(tǒng)進行分析;化學交聯(lián)信息鑒定軟件使用質(zhì)譜數(shù)據(jù)得到其中包含的交聯(lián)分子信息,現(xiàn)在已經(jīng)有多款交聯(lián)軟件用于完成這個檢索過程(Z.Lin,J.M.Meng.et.al,Nat.Commun.,2019,10,3404;M.R.Hoopmann,A.Zelter.et.al,J.Proteome?Res.,2015,14,2190-2198;J.Dai,W.Jiang.et.al,Bioinformatics,2018,35,251-257)。然而這些軟件均是基于PSM(Peptide?Spectra?Match)水平進行檢索結(jié)果的質(zhì)量控制,其關(guān)注點在于單張二級譜圖所回收的交聯(lián)肽段的準確度。然而在交聯(lián)質(zhì)譜實驗中,除了相互作用蛋白間的交聯(lián)外,也有相當一部分交聯(lián)信息是由分子熱運動,隨機碰撞而產(chǎn)生的;由此產(chǎn)生的假陽性是基于PSM的質(zhì)量控制策略無法控制的。到目前雖然也有工作(L.Fischer,J.Pappsiber.et.al,Anal.Chem.,2017,89,3829-3833)指出僅在PSM水平上進行質(zhì)量控制的瑕疵,但是仍然缺乏一個專門設(shè)計的流程,用于解決在整體層面上評價交聯(lián)生物分子間可信度的問題。
發(fā)明內(nèi)容
針對以上的技術(shù)問題,本發(fā)明提出了一種用于評價生物分子交聯(lián)質(zhì)譜鑒定隨機性的半監(jiān)督學習方法,相比較于用于PSM水平的分類算法,本專利提出了一套專用的特征選擇、特征處理流水線。在特征選擇方面,除了基礎(chǔ)的生物分子譜圖的匹配信息外,更多的考慮了生物分子的生物學信息、生物分子與色譜系統(tǒng)、生物分子與質(zhì)譜系統(tǒng)的局部環(huán)境信息。在訓練過程中,為了避免機器學習模型過擬合的問題,本流程提出了相配套的特征組合與預處理的方法。
為了實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案為:用于評價生物分子交聯(lián)質(zhì)譜鑒定隨機性的半監(jiān)督學習方法,其特征在于,利用半監(jiān)督學習方法對化學交聯(lián)的生物分子所獲得的液相色譜質(zhì)譜聯(lián)用鑒定信息進行過濾,依據(jù)生物分子化學交聯(lián)的實驗要求,將生物分子與交聯(lián)試劑反應(yīng)后的產(chǎn)物進行二級質(zhì)譜分析,使用數(shù)據(jù)依賴型模式進行數(shù)據(jù)采集,將得到的質(zhì)譜數(shù)據(jù)利用數(shù)據(jù)檢索軟件鑒定后,將鑒定結(jié)果文件作為輸入,使用預先訓練完成的半監(jiān)督學習模型,對鑒定結(jié)果依據(jù)生物分子信息、數(shù)據(jù)庫檢索信息、質(zhì)譜信息和色譜信息這四個維度進行過濾,得到評價結(jié)果,使評價結(jié)果中不包含因為化學反應(yīng)隨機性而產(chǎn)生的化學交聯(lián)信息。
用于評價生物分子交聯(lián)質(zhì)譜鑒定隨機性的半監(jiān)督學習方法,包括以下步驟:
1)將待分析的體系與交聯(lián)劑混合發(fā)生交聯(lián)反應(yīng);對反應(yīng)后的樣品進行質(zhì)譜分析得到二級譜圖;對二級譜圖進行信息檢索,得到鑒定結(jié)果;對鑒定結(jié)果中的交聯(lián)信息提取得到特征信息;
2)將特征信息輸入半監(jiān)督學習模型進行訓練,得到訓練好的模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院大連化學物理研究所,未經(jīng)中國科學院大連化學物理研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010938863.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





