[發明專利]一種基于質譜代謝組學的通路分析建模方法有效
| 申請號: | 202110277077.3 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN113049664B | 公開(公告)日: | 2022-11-22 |
| 發明(設計)人: | 鄧伶莉;馬磊;韓碧榮 | 申請(專利權)人: | 東華理工大學 |
| 主分類號: | G01N27/62 | 分類號: | G01N27/62;G01N30/72;G01N30/86;G16B40/00 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 張松亭;王婷婷 |
| 地址: | 330000 江西*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 代謝 通路 分析 建模 方法 | ||
本發明提供一種質譜代謝組學的代謝通路分析建模方法,包括如下步驟:S1:采集正常生物和患病生物的生物樣本,對采集樣本得到的質譜轉化成mzML文件,對質譜文件進行中心化、去噪以及對齊處理,得到樣本的代謝物的二維數據矩陣;S2:對樣本的代謝物的二維數據矩陣以及樣本類別矢量矩陣,做中心化和Unite Variance歸一化處理;S3:獲取代謝物?通路映射關系,并通路權重系數進行優化;S4:進行通路排序,調整懲罰因子并確定通路被選頻率,利用通路的被選頻率對通路進行排序;本發明提供的方法,通過將代謝物分組為相互之間有重疊的通路,將偏最小二乘法和Group Lasso相結合建立回歸模型,并引入通路權重系數和懲罰因子,實現基于“分組稀疏”的多元回歸。
技術領域
本發明涉及數據分析領域,特別是指一種基于質譜代謝組學的通路分析建模方法。
背景技術
現代高通量的質譜分析技術為我們提供生物體豐富的分子信息,使得我們可以系統研究機體的內源性分子在外界刺激、病理生理學改變以及基因突變等條件下的變化。基于質譜的代謝組學作為綜合分析機體代謝的現代分析技術,在學術研究領域被廣泛采用,尤其是生物醫學和植物科學等領域。
數據分析是質譜代謝組學研究中的關鍵步驟,近二十年來人們提出了各種的數據分析策略和工具,用于解讀數據中生物學差異,揭示其潛在的生物生理病理機制。傳統的數據分析策略集中于識別在兩個感興趣的條件之間表現出差異的個體代謝物,然而其結果無法關聯上生物環境(如,代謝物通路),需要結合過表達分析(Over-representationanalysis,ORA)將得到的差異代謝物映射到預先定義的生物通路中,從而進一步富集得到擾動通路。這些基于代謝物的通路分析方法忽略了代謝物濃度,結果受到差異代謝物識別結果影響很大。與ORA不同,定量富集分析(Quantitative enrichment analysis,QEA)無需進行差異代謝物識別,直接利用Global-test方法統計來自同一通路的一組代謝物在兩類樣本間是否存在顯著差異。從系統生物學的角度來看,許多的代謝物參與多條代謝通路,即通路間存在重疊,通路之間并不是獨立的,它們彼此關聯構成整個代謝網絡。此外,通路在某些特性上是不等價的,例如不同通路,其包含代謝物的數量、“通路-謝物”對應關系等均存在差異。這些對通路分析提出了三個方面的挑戰。第一,如何考慮代謝物和通路之間的相互關系;第二,對于通路間重疊代謝物,如何分配其在各通路中的權重;第三,如何消除各通路間的差異,使得不同通路之間具有可比性。
針對第一個問題,我們可以通過整合所有代謝物來構建一個綜合模型來實現,代謝物和通路之間的相互作用被表征成多個通路同時建模來解決。近期研究人員利用多塊偏最小二乘(multi-block partial least square,MB-PLS)分析方法對的所有的“組”數據(通路數據)進行建模,使用通路重要性投影(pathway importance in projection,PIP)參量來評估各通路的重要性,并證明了這類基于通路水平(“組”數據)的方法較傳統的基于代謝物水平的方法可靠性更高。對于第二問題,通常有兩種策略,一種是從數據集中移除所有重疊的代謝物;另一種是將重疊的代謝物復制/均攤到其涉及的各條通路中。然而,這兩種策略在篩選擾動通道時都會導致較高的假陽性率(FDR)。對于最后一個問題,有人建議在多條通路聯合建模時引入通路內代謝物數量的平方根成做為通路的權重系數,以減少通路之間的不等價性。然而,代謝物數量并不是導致通路間不可比的唯一原因,選擇合適的通路權重系數仍是一個挑戰。
從網絡角度來看,許多的代謝物參與多條代謝通路,即存在通路重疊問題。雖然這類重疊代謝物的代謝水平是由涉及的多條通路共同作用的,但當這類代謝物的代謝水平出現擾動時,擾動通常只是由一條(或部分)通路引起。現有的通路分析方法往往將重疊代謝物的擾動得分均攤在其涉及的各條通路中,進而增加了分析結果的假陽率;其次,由于各通路包含代謝物數量不同、通路間的存在交疊等情況,在多通路聯合建模時,通路權重系數難以準確估計;另外,由于代謝組學研究樣本量有限,分析結果往往存在一定的隨機性。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華理工大學,未經東華理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110277077.3/2.html,轉載請聲明來源鉆瓜專利網。





