[發明專利]一種基于離子索引的整體蛋白質鑒定方法與系統有效
| 申請號: | 201710701999.6 | 申請日: | 2017-08-16 |
| 公開(公告)號: | CN107563148B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 王瑞敏;孫瑞祥;遲浩;曾文鋒;劉超;賀思敏 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B40/20;G16B50/30;G16B30/10 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 離子 索引 整體 蛋白質 鑒定 方法 系統 | ||
1.一種基于離子索引的整體蛋白質鑒定方法,其特征在于,包括:
步驟1、根據氨基酸碎裂位點,計算蛋白質數據庫中各蛋白質序列在碎裂位點斷裂產生的離子質量,建立包含這些離子質量的離子索引表,其中該氨基酸碎裂位點包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;
步驟2、根據預設的可變修飾類型和最大可變修飾位點數目,并以蛋白質的修飾數據庫為基礎,建立修飾質量索引;
步驟3、對于每張質譜圖,從該質譜圖中提取查詢譜峰,并用該查詢譜峰檢索該離子索引表,為該質譜圖保留多個候選蛋白質;
步驟4、根據每個該候選蛋白質的N/C端截斷情況,為各該候選蛋白質保留有效序列;
步驟5、對于每個該有效序列,生成其所有的理論碎片離子,通過打分算法計算各碎片離子與該質譜圖的匹配度,利用該匹配度進一步篩選該有效序列;
步驟6、根據每個該有效序列的母離子質量偏差檢索該修飾質量索引,為每個該候選蛋白質獲取對應的修飾組合,并推導修飾位點的位置,得到對應的候選蛋白質變體;
步驟7、為每個該候選蛋白質變體進行細打分,根據分值排名為各質譜圖保留多個蛋白質變體,并將各質譜圖匹配的蛋白質變體作為訓練樣本輸入至SVM模型;
步驟8、通過使用該SVM模型對所有質譜圖的候選蛋白質變體進行重打分,得到每個候選蛋白質變體的SVM分值;
步驟9、取質譜圖對應的蛋白質變體中SVM分值最高的蛋白質變體,作為該質譜圖的匹配蛋白質變體,并根據每個該匹配蛋白質變體的SVM分值,對質譜圖進行篩選,將篩選出的質譜圖和其相應的匹配蛋白質變體作為最終鑒定結果進行輸出。
2.如權利要求1所述的基于離子索引的整體蛋白質鑒定方法,其特征在于,該步驟1包括:
步驟11、計算每種該蛋白質序列中氨基酸D,E,V處斷裂產生的b離子質量;
步驟12、計算每種該蛋白質序列中氨基酸G,P,Y處斷裂產生的y離子質量;
步驟13、將該b離子質量和該y離子質量進行整數化處理后作為數組的下標;
步驟14、分別統計該b離子質量、該y離子質量累積出現的累積次數,將該累積次數作為數組對應項的值;
步驟15、重新遍歷該蛋白質序列,把各該b離子質量、各該y離子質量的該累積次數作為倒排索引表的數組下標,并依次把該蛋白質序列對應的蛋白質ID作為該倒排索引表的倒排項存儲在數組中;
步驟16、每記錄一個該倒排項,便對其相應b離子質量或y離子質量的累積次數減一,掃描完所有的蛋白質序列之后,將該倒排索引表作為該離子索引表。
3.如權利要求1所述的基于離子索引的整體蛋白質鑒定方法,其特征在于,步驟5中該打分算法包括:首先根據預設的碎片離子誤差范圍,查找候選蛋白的該碎片離子在該質譜圖中是否存在匹配譜峰,若是,則根據BM25打分算法對該碎片離子及其該匹配譜峰進行打分;否則,查找該碎片離子的互補離子在該質譜圖的匹配譜峰,根據BM25打分算法對該互補離子及其該匹配譜峰進行打分;最終將匹配到的碎片離子或互補離子打分的累加和作為候選蛋白的該匹配度。
4.如權利要求1所述的基于離子索引的整體蛋白質鑒定方法,其特征在于,步驟4中該有效序列的生成過程包括:
步驟41、計算各該候選蛋白質的蛋白質序列的理論質量,若該理論質量減去該質譜圖母離子質量大于等于最小氨基酸質量,則將該蛋白質序列的N端截斷去除一個或多個氨基酸,使得該理論質量減去該母離子質量小于等于5.2Da,將截斷后的蛋白質序列作為該有效序列;
步驟42、將該候選蛋白質的蛋白質序列的C端截斷去除一個或多個氨基酸,使得該理論質量減去該母離子質量小于等于5.2Da,將截斷后的蛋白質序列也作為該有效序列;
步驟43、若該候選蛋白質的蛋白質序列以M氨基酸開頭,且該理論質量減該M氨基酸質量減該母離子質量大于等于最小氨基酸質量,則截斷去除M氨基酸,同時截斷去除該蛋白質序列C端的一個或多個氨基酸,使得截斷后的該理論質量減該母離子質量小于等于5.2Da,將截斷后的蛋白質序列也作為該有效序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710701999.6/1.html,轉載請聲明來源鉆瓜專利網。





