[發明專利]一種基于離子索引的整體蛋白質鑒定方法有效
| 申請號: | 202010244337.2 | 申請日: | 2020-03-31 |
| 公開(公告)號: | CN111524549B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 王振振;孫瑞祥;遲浩;賀思敏 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G16B20/50 | 分類號: | G16B20/50;G16B40/20;G16B50/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 離子 索引 整體 蛋白質 鑒定 方法 | ||
1.一種基于離子索引的整體蛋白質鑒定方法,包括下列步驟:
步驟1,獲得候選蛋白質的串聯譜圖和可信母離子;
步驟2,對候選蛋白質建立序列標簽索引表;
步驟3,根據修飾數據庫中的信息以及用戶設置的修飾數目建立修飾質量索引;
步驟4,從所述串聯譜圖中提取查詢譜峰,用所述查詢譜峰檢索所述序列標簽索引表,獲取每張串聯譜圖的候選蛋白質;
步驟5,對于所述候選蛋白質檢查其N/C端截斷情況,為每個所述候選蛋白質保留有效序列片段;
步驟6,對每一個所述候選蛋白質序列,根據其母離子質量偏差檢索所述修飾質量索引,獲取候選修飾組合,得到候選蛋白質變體;
步驟7,對每一個所述候選蛋白質變體進行修飾位點定位和細打分,使用SVM模型對所有串聯譜圖的所述候選蛋白質變體進行重打分,得到每個候選蛋白質變體的SVM分值,其中所述SVM模型是通過將與各個串聯譜圖匹配的樣本蛋白質變體作為訓練樣本訓練得到的;
步驟8,取每張串聯譜圖SVM打分第一名的蛋白質變體結果,將所有的蛋白質變體-譜圖匹配(Proteoform-Spectrum?Match,PrSM)按照打分排序;其中步驟1包括:
步驟11,計算每一個候選串聯譜圖的母離子特征,確定候選母離子;
步驟12,對每一個所述候選母離子,根據其在多電荷狀態下理論與實驗同位素模式匹配誤差之和篩選所述候選母離子;
步驟13,對篩選后的候選母離子,使用離線LightGBM和在線SVM模型對待測母離子進行打分,輸出所述可信母離子;其中,所述離線LightGBM和在線SVM模型是用已知母離子數據集作為訓練樣本訓練得到的;以及
其中步驟5包括:在確定串聯質譜及候選蛋白質序列后,利用滑動窗口技術來枚舉蛋白質兩翼的標簽位置,然后根據串聯譜圖中提取到的標簽及枚舉標簽得到的兩翼標簽來確定所述兩翼的質量差,獲取所有的雙端截斷蛋白質變體序列。
2.根據權利要求1所述的整體蛋白質鑒定方法,其中步驟11包括:枚舉所有候選串聯譜圖,對于每一個候選串聯譜圖,找到相應的先導譜圖,及前后各5張一級譜,并在其中枚舉母離子的最高峰位置和電荷狀態,確定一個候選母離子。
3.根據權利要求1所述的整體蛋白質鑒定方法,其中步驟12包括:對每一個所述候選母離子,先計算其在其不同的電荷狀態下理論與實驗同位素模式匹配誤差,然后計算其在多電荷狀態下理論與實驗同位素模式匹配誤差之和,將所述誤差之和作為特征值,并根據所述特征值排序,對同一個串聯質譜下最高峰位置相同、電荷狀態不同的所述候選母離子,保留其中特征值前5的所述候選母離子進入后續處理。
4.根據權利要求1所述的整體蛋白質鑒定方法,其中步驟13包括:對保留的所述候選母離子進行全量特征提取,使用所述離線LightGBM和在線SVM模型對待測母離子進行打分,二者打分結果進行線性加權加和,判斷候選母離子是否為可信母離子并輸出所述可信母離子。
5.根據權利要求1所述的整體蛋白質鑒定方法,其中步驟5還包括:在確定串聯質譜及候選蛋白質序列后,枚舉單端的蛋白質標簽位置,然后根據串聯譜圖中提取的標簽及枚舉標簽得到的標簽計算質量差,得到可能的單端截斷蛋白質變體序列。
6.根據權利要求1所述的整體蛋白質鑒定方法,其中步驟8具體包括:為每張串聯譜圖保留細打分前十名的所述蛋白質變體,使用一個SVM模型對所有串聯譜圖的候選的所述細打分前十名的所述蛋白質變體進行重打分,得到每個候選蛋白質變體的SVM分值,其中所述SVM模型是通過將與各個串聯譜圖匹配的樣本蛋白質變體作為訓練樣本訓練得到的。
7.一種電子設備,其特征在于,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行時,使得所述電子設備實現如權利要求1至6中任一項所述方法的步驟。
8.一種計算機可讀儲存介質,其上儲存有計算機程序,其中,所述程序被處理器執行時實現上述權利要求1至6其中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010244337.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:風景園林用植被移栽裝置
- 下一篇:一種市政垃圾再生保溫磚制作用處理裝置





