[發(fā)明專利]一種高分辨質譜數(shù)據(jù)的處理方法有效
| 申請?zhí)枺?/td> | 201410398615.4 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN105334279B | 公開(公告)日: | 2017-08-04 |
| 發(fā)明(設計)人: | 曾仲大;陳愛明 | 申請(專利權)人: | 大連達碩信息技術有限公司 |
| 主分類號: | G01N30/86 | 分類號: | G01N30/86 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 116023 遼寧省大連市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分辨 數(shù)據(jù) 處理 方法 | ||
技術領域
本發(fā)明涉及一種高分辨質譜數(shù)據(jù)的處理方法,屬于分析化學領域。具體來說是實現(xiàn)多個高分辨質譜數(shù)據(jù)間同時保留時間和m/z漂移的校正,并融合質譜峰表特征,獲得“一對一”的峰表,即一個小分子化合物對應唯一的質譜特征,提高數(shù)據(jù)用于分類建模及實際應用的能力,比如生物標志物的發(fā)現(xiàn)與結構鑒定。
背景技術
高分辨質譜已經得到非常廣泛的使用,比如LTQ-Orbitrap和FT-MS等,其主要原因在于其更準確和更高分辨率的質譜量測,從而提供目標化合物分子式甚至子結構或全部結構的信息,提高鑒定的準確性和分析效率。以代謝組學的研究為例,高分辨質譜,特別是液相色譜和高分辨質譜(液-質)的聯(lián)用,已經非常廣泛地用于靶向和非靶向代謝組學的研究中,極大地提高了代謝小分子標志物被發(fā)現(xiàn)和鑒定的可能。
代謝組學等領域所涉及的高分辨液-質聯(lián)用儀器的應用,以及相關數(shù)據(jù)的分析處理與信息挖掘,大多是建立在多個樣本的基礎之上,即需要分析的實際樣本數(shù)通常遠不止一個,比如非靶向代謝組學生物標志物的發(fā)現(xiàn),需要系統(tǒng)地分析處理具有統(tǒng)計意義的有病和沒病體系數(shù)據(jù),尋找可以最大限度地區(qū)分這二類樣本,且具有優(yōu)越的未知樣本預測能力和生物解釋性的代謝小分子標志物。多個高分辨數(shù)據(jù)樣本的分析,必然需要對這些數(shù)據(jù)進行樣本間的保留時間和m/z漂移校正,最理想的狀態(tài)是達致一個代謝標志物對應一個最終峰表中的質譜特征。
迄今為止,研究者已經提出不少方法來校正和處理多樣本的高分辨質譜數(shù)據(jù),比如MetAlign,MZmine,XCMS,以及各種商業(yè)儀器中自帶的數(shù)據(jù)處理軟件包,例如安捷倫公司的Mass Profile Pro和布魯克公司的Metabolic Profiler等。整體而言,這些方法各有優(yōu)劣,結果的好壞往往取決于獲得數(shù)據(jù)時實驗設計的具體情形,共同的缺陷可以歸類為二個方面:一是方法的復雜性導致的使用復雜性,絕大部分方法都設計成了非常復雜、功能完備的程序或軟件系統(tǒng),對于不具備較強儀器背景和數(shù)據(jù)分析處理背景的人來說,往往困難較大;另一個方面是方法的缺陷導致的結果不準確性和代謝組學等領域中標志物發(fā)現(xiàn)和鑒定的不適應性。以至今使用最為普遍的XCMS方法為例:先對提取離子色譜進行峰識別和峰過濾,再匹配不同樣本間的數(shù)據(jù),實現(xiàn)保留時間和m/z漂移的校正,最后對得到的峰表數(shù)據(jù)進行質量提高的處理。
然而,高分辨質譜數(shù)據(jù)由于不同峰形,噪聲和背景的影響,導致色譜方向的準確峰識別異常困難,簡單的峰平滑,加上一階或二階求導的方法并不能完全找到真實的色譜離子峰,從而導致最終結果的不準確性。此外,傳統(tǒng)上峰匹配后的峰表是所有質譜特征的大集合,存在大量一個小分子對應多個裂解質譜特征(m/z)的情形,從而產生一系列的不利后果,包括:1,增加分類建模方法的難度和復雜度,更多的質譜特征導致更小的樣本-特征比,減少方法的適應度;2,減少找到真正標志物或有用特征的可能,因為大量質譜特征的存在,實際上稀釋了真實的特征,并極有可能篩選到來自相同小分子的質譜特征;3,特征間極大的共線性風險,降低建模方法和結果的可用性。
本發(fā)明的方法將峰識別分解為更易實現(xiàn)的二個步驟,即先基于用戶自定義的參數(shù)實現(xiàn)對質譜峰的快速獲取,并在全局優(yōu)化的峰匹配后進行有效峰融合,既降低對前期準確峰識別的依賴,同時可獲得優(yōu)越的“一對一”峰表,具有更廣闊的適應范圍和更佳的應用效果。
發(fā)明內容
本發(fā)明的目的在于提供一種新的高分辨質譜數(shù)據(jù)處理方法,通過該方法可實現(xiàn)多個液-質數(shù)據(jù)樣本的同時保留時間和m/z方向峰匹配,其最大特征在于減少對峰準確識別的依賴,基于線性規(guī)劃的優(yōu)化方法,可實現(xiàn)全局的最優(yōu)峰匹配,同時對峰匹配后峰表的融合,可得到所謂的“一對一”峰表結果,更加有利于后續(xù)的數(shù)據(jù)處理和信息挖掘,比如代謝小分子標志物的發(fā)現(xiàn)和鑒定。本方法適應范圍廣,對于具有較大背景,低信噪比的復雜高分辨液-質數(shù)據(jù)處理,同樣能得到較好的結果,具有良好的應用前景。
為了解決多樣本間復雜高分辨質譜數(shù)據(jù)的同時保留時間和m/z校正問題,本發(fā)明通過用戶自定義的二個參數(shù),即質譜響應閾值或總的峰數(shù)目實現(xiàn)質譜特征的初步識別,同時基于自動背景扣除方法提高結果的準確性。在此基礎上,采用線性規(guī)劃逆向思維的模式,校正待分析樣本與參考樣本間的保留時間和m/z漂移,最后對匹配后的峰表進行峰融合,獲得每個小分子化合物對應峰表中唯一質譜特征的峰表,提高后續(xù)分析的準確性,并減少對建模方法的依賴。峰識別、全局最優(yōu)的峰匹配和峰表融合都是優(yōu)于傳統(tǒng)方法的特點,極大限度地保證質譜數(shù)據(jù)處理結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連達碩信息技術有限公司,未經大連達碩信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410398615.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





