[發明專利]基于泊松分布模型的蛋白質二級質譜鑒定方法有效
| 申請號: | 201510799996.1 | 申請日: | 2015-11-19 |
| 公開(公告)號: | CN105823883B | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 陳曉舟;肖傳樂;朱思敏;陳君華 | 申請(專利權)人: | 云南民族大學 |
| 主分類號: | G01N33/68 | 分類號: | G01N33/68 |
| 代理公司: | 廣州天河恒華智信專利代理事務所(普通合伙)44299 | 代理人: | 張培祥 |
| 地址: | 650504 云南*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布 模型 蛋白質 二級 鑒定 方法 | ||
技術領域
本發明涉及蛋白質二級質譜鑒定領域,特別是涉及一種基于泊松分布模型的蛋白質二級質譜鑒定方法。
背景技術
生物質譜技術目前已經成為蛋白質組研究的支撐技術之一,質譜技術的開發可追溯到20世紀初期,由J.J.Thomson創制的拋物線質譜裝置。之后,在1919年Aston制成的速度聚焦型質譜儀又為質譜的發展創造奇跡。接著80年代末期,基質輔助激光解吸(matrix-assisted laser desorption ionization,MALDI)和電噴霧(Electrospray Ionization,ESI)兩種軟電離技術的出現,使生物質譜引入較少的雜質同時保持肽段分子的完整性,這些改變使得生物質譜技術可以大規模的應用于蛋白質分析中。主要是利用串聯質譜或者二級質譜(LC-MS/MS)從帶有復雜噪聲或者部分信息缺失的數據中推斷樣品的蛋白質組成。在這些質譜數據的處理中我們主要應用數據庫搜索,其基本過程如圖1所示,即將實驗圖譜和數據庫中產生的理論圖譜進行比對、打分,選擇分值最高的匹配作為搜索結果的候選肽段。
我們知道一次蛋白質組實驗可產生許多的LC-MS/MS圖譜,這些圖譜具有如下特點:實驗圖譜碎片峰離子復雜且豐富,同位素峰存在,生物質譜儀器本身的誤差。如何快速的提取對我們有用的信息成為生物學研究的新課題,蛋白質二級質譜鑒定算法的不斷創新為研究核苷酸序列提供了新的方法。
蛋白質二級質譜鑒定主要包括:母離子價態的確定、有效質譜峰的選取、匹配打分模型構建以及整體鑒定結果的假陽性率控制。隨機數據庫方法是目前針對整體鑒定結果假陽性率控制的主要方法。其基本思想是:先給定的蛋白質數據庫和實驗數據集構建一個隨機數據庫,然后同時或者分別搜索真實蛋白質數據庫和新構建的隨機數據庫,進而通過隨機數據庫肽段匹配來模擬正常數據庫中的隨機匹配,最終估計正常數據庫中隨機匹配的特征分布,確定不同過濾標準。目前求取整體數據集假陽性率(False Positive Rate,FPR)的方法多樣。其中Kall’s在Proteome上公開的計算假陽性率的方法被廣泛采用,計算公式如下:
打分模型是蛋白質二級質譜鑒定算法的核心問題,目前的許多算法并不能提高蛋白質有效質譜數量和蛋白質肽段數。
發明內容
基于此,有必要提供一種能明顯提高蛋白質有效質譜數量和蛋白質肽段數量的基于泊松分布模型的蛋白質二級質譜鑒定方法。
一種基于泊松分布模型的蛋白質二級質譜鑒定方法,包括如下步驟:
(1)虛擬酶解蛋白質數據庫序列,并根據肽段的質量數對酶解后的肽段建立肽段數據庫和肽段數據庫索引;
(2)根據待分析實驗圖譜中母離子的核質比在步驟(1)所述的肽段數據庫中找出符合要求的候選肽段,將選出符合要求的候選肽段作為理論圖譜;
(3)對待分析實驗圖譜進行去同位素峰和去噪處理;
(4)將步驟(3)中的待分析實驗圖譜和步驟(2)中每張候選肽段的理論圖譜進行匹配打分,選擇得分最高的候選肽段作為本次實驗圖譜的鑒定結果;
(5)針對所有實驗的鑒定結果進行整體的假陽性控制。
在其中一個實施例中,步驟(1)具體包括如下步驟:
(1.1)讀取待分析二級質譜樣本中物種蛋白質序列庫文件的一條蛋白質序列;
(1.2)根據提前設定的蛋白酶確定蛋白質序列的酶切位點,在該酶切位點進行斷裂,區別出無漏切位點的肽段和存在漏切位點的斷裂肽段;
(1.3)由每個氨基酸的分子量計算步驟(1.2)中其所對應的酶切后的肽段的質量數;
(1.4)將經過步驟(1.3)處理過的肽段存入肽段數據庫,同時以該肽段取整后質量數命名該數據庫中的文件,并將該條肽段的信息存入該文件;
(1.5)重復步驟(1.2)-(1.4),對每一條蛋白質進行相同的處理,直到所有的蛋白序列被酶解且被存入已建立的所述肽段數據庫;
(1.6)依據所述肽段數據庫中的文件名數字從小到大讀出文件中的肽段信息,每讀一個文件,按照文件中所存肽段的質量數從小到大進行排序,并將其存入到database.ind文件中;并以1da為單位對所有肽段建立查找索引database.index,該查找索引具體包括:肽段質量數、肽段在database.ind文件中的開始位置以及某區間內的肽段的個數。
在其中一個實施例中,步驟(2)在肽段數據庫中找出符合要求的候選肽段并以此建立理論圖譜的具體步驟是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南民族大學,未經云南民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510799996.1/2.html,轉載請聲明來源鉆瓜專利網。





