[發明專利]一種蛋白質翻譯后修飾的定位方法及系統有效
| 申請號: | 201410360277.5 | 申請日: | 2014-07-25 |
| 公開(公告)號: | CN104134015B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 羅蘭;孫瑞祥;遲浩;賀思敏 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F19/10 | 分類號: | G06F19/10 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 蛋白質 翻譯 修飾 定位 方法 系統 | ||
技術領域
本發明涉及生物信息學領域,以及更具體地,涉及一種蛋白質翻譯后修飾的定位方法及系統。
背景技術
在基于質譜技術的計算蛋白質組學領域里,常用的蛋白質鑒定方法是“自底向上(Bottom-up,BU)”的數據庫搜索算法,即先鑒定酶切肽段,然后根據鑒定到的肽段推斷蛋白質。盡管這種方法簡單易操作并且靈敏度和通量均比較高,但是肽段在酶切過程中丟失了原始蛋白質的一些信息,直接由鑒定肽段推斷出原始蛋白質由于缺乏信息具有很多不確定性的因素,而且有些被鑒定到的蛋白質僅有少數幾條肽段,蛋白質序列覆蓋率低,特別是對于發生多翻譯后修飾(蛋白質的氨基酸側鏈上結合了一些調控生命過程的化學基團)的蛋白質鑒定、修飾間的相互作用等研究無法提供足夠的信息。而“自頂向下(Top-down,TD)”的蛋白質鑒定方法則不需要酶切,可以具有完整的翻譯后修飾信息,能夠直接對原始蛋白質變體(“Proteoform”)進行鑒定。其中,蛋白質變體是指由同一個基因所形成的所有不同形式的蛋白質分子。由基因到蛋白質,中途的基因突變、RNA可變剪切和蛋白質上翻譯后修飾等情況都可能會導致相同的基因產生不同形式的蛋白質,它們統稱為蛋白質變體。
隨著分離技術和質譜技術的快速發展,利用質譜儀檢測蛋白質的技術越來越成熟,但是后端的生物信息學分析技術的發展非常緩慢,目前可用的完整蛋白質鑒定方法非常少,而且運行速度較慢、對多修飾的處理能力有限。其中,ProSight軟件僅能夠鑒定通過“鳥槍法”標注的那部分修飾位點;MS-Align-E雖然支持用戶指定任意的修飾,但是消耗的時間和空間都非常大;研究人員還指出:在3.4GHz的PC機上采用3252張譜圖搜索1個目標蛋白質需要超過8小時的時間,若搜索整個人類蛋白質序列庫中的9萬多個蛋白質,則時間可能需要按月來計。這主要是因為對于完整蛋白質來說,由于序列較長、可能的修飾位點數較多,枚舉所有修飾位點是否發生修飾以及發生何種修飾是對計算的極大挑戰。如果在蛋白質序列上有t種不同的可修飾氨基酸,每種氨基酸各有m1,m2,...,mt個,而每個氨基酸上可以發生的修飾數目分別為n1,n2,...,nt種,則一共需枚舉種情況。以人類組蛋白H4為例,通過UniProt數據庫中的修飾位點信息計算理論的蛋白質變體形式就有260億種。
綜上所述,現有的修飾定位技術或者不支持用戶指定任意修飾,或者雖然支持用戶指定任意的修飾但定位速度很慢。
發明內容
為提高對修飾位點進行定位的速度并且同時支持用戶指定任意修飾,根據本發明的一個實施例,提供一種蛋白質翻譯后修飾的定位方法,包括:
步驟1)、對于一條蛋白質序列,計算發生的修飾的總質量,得到該總質量對應的一個或多個修飾組合;
步驟2)、將與所述蛋白質序列上的每個氨基酸對應的一個或多個修飾集合作為圖中的頂點,根據所述一個或多個修飾組合連接該頂點,并且根據與所述蛋白質序列對應的譜圖設置該頂點的權值;其中,所述修飾集合是從所述蛋白質序列的第一個氨基酸到對應的氨基酸上能夠發生的修飾的集合并且是所述一個或多個修飾組合中的一個修飾組合的子集;
步驟3)、根據路徑上所有頂點的權值選擇所述圖中的路徑,并且將該路徑轉換為修飾位點信息。
在一個實施例中,在步驟2)中,按照以下步驟連接圖中的頂點:
對于相鄰的氨基酸對應的兩個修飾集合B、B’,其中B’是后一個氨基酸對應的修飾集合,如果B=B’,則在所述圖中建立從B對應的頂點到B’對應的頂點的有向邊;或者如果B’=B∪{x},并且修飾x屬于所述一個或多個修飾組合并且能夠發生在B’對應的氨基酸上,則在所述圖中建立從B對應的頂點到B’對應的頂點的有向邊。
在一個實施例中,在步驟2)中,根據頂點對應的蛋白質的N端和C端離子與譜圖中譜峰的匹配結果設置該頂點的權值,包括以下步驟:
步驟A)、根據與所述蛋白質序列對應的譜圖中譜峰的質量建立哈希表M,以及計算所述頂點對應的蛋白質的N端和C端離子的質量并且向下取整;其中,哈希表M中的第i個元素表示質量為i,其元素值表示質量為i的譜峰的編號;
步驟B)、對于取整后的N端和C端離子的質量,查詢與其中每個質量匹配的譜峰;其中,查找與一個質量m匹配的譜峰包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410360277.5/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡?,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





