[發明專利]蛋白質組數據庫及其應用有效
| 申請號: | 201510448466.2 | 申請日: | 2015-07-27 |
| 公開(公告)號: | CN105117620B | 公開(公告)日: | 2018-03-02 |
| 發明(設計)人: | 謝振華 | 申請(專利權)人: | 清華大學深圳研究生院 |
| 主分類號: | G06F19/28 | 分類號: | G06F19/28 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 李志東 |
| 地址: | 518055 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 蛋白質 數據庫 及其 應用 | ||
技術領域
本發明涉及生物信息領域,具體的,本發明涉及構建蛋白質組數據庫的方法、蛋白質組數據庫、蛋白質組數據庫在蛋白質分類和/或檢索定位中的用途、定位蛋白的方法、定位蛋白的系統、蛋白的分類方法及系統。
背景技術
蛋白質是生命功能的執行者和生命活動的直接體現者。隨著四千多個物種全基因組序列測定的完成,基因組研究的戰略重點從結構基因組學轉向功能基因組學,蛋白質組學正是功能基因組研究的重要支柱,是后基因組時代生命科學研究的核心內容之一。蛋白質組學對蛋白質的功能分析、鑒定及其翻譯后修飾的研究,將會對闡明基因的功能起到極大的推動作用,并能更加客觀準確地揭示生命現象。
質譜(MS)為基礎來分析蛋白質組的鳥槍法是非常強大的方法,但是鳥槍法這樣的策略在很大程度上依賴于完整的蛋白質組數據庫,通常使用數據庫檢索算法進行蛋白質的鑒定。目前,全蛋白質組數據庫中的大部分蛋白質序列是來源于預測全基因組和轉錄組序列中的蛋白質編碼基因得到的注釋結果,只有部分蛋白質具有實驗證據的支持。隨著實驗數據的積累和預測注釋的改進,蛋白質數據庫不斷更新且日趨完善其完整性和準確性,但是依然不能反映全蛋白質組的全部信息。
發明內容
本發明的目的之一在于構建一種蛋白質組數據庫。發明人基于以下發現和認識而作出本發明:
蛋白質分子的疏水性(Hydrophobicity),等電點(PI),序列長度和分子量等理化特性只依賴于蛋白質氨基酸組成,與蛋白質序列信息無關,這些理化特性被認為是蛋白質氨基酸組成相關的理化特性。這些特性值可以從一個線性氨基酸序列推算出。蛋白質氨基酸組成和氨基酸組成衍生的理化特性,已被廣泛用于預測蛋白質結構和功能分類,蛋白–蛋白相互作用和蛋白質亞細胞定位。
蛋白質組學獲得和鑒定低豐度蛋白是一個巨大的挑戰。例如,雙向電泳方法有一定的局限性:它很難分析出非常酸性的,堿性的,小的,大的和疏水性的蛋白質。完全測序的四千多個蛋白序列構成的全蛋白質組可提供豐富的生物信息來指導未來的生物研究,但是本領域普通技術人員無法應對含有幾千至幾萬條蛋白序列的全蛋白質組的大數據挑戰,所以目前全蛋白質組的數據應用并不廣泛。
因而,構建蛋白質組數據庫,建立全蛋白質組的坐標系統,實現對含有幾千、幾萬甚至更多條蛋白序列的全蛋白質組的大數據進行有序化管理,實現對蛋白質組的蛋白質序列的理化特性有序化組織,成為促進蛋白質組學的發展的一種強烈需要。
依據本發明的第一方面,本發明提供一種構建蛋白質組數據庫的方法,該方法包括以下步驟:接收多個蛋白序列;消除每個所述蛋白序列的起始氨基酸,獲得相應的截斷序列;建立數據表,以獲得所述蛋白質組數據庫,所述數據表包含多個記錄,一個所述記錄與一個所述截斷序列對應,所述數據表包含多個字段,所述字段包括以下序列參數中的至少兩種:氨基酸豐度、序列長度、序列分子量、序列疏水性和序列等電點,所述氨基酸豐度包括以下至少之一:Ala豐度、Cys豐度、Asp豐度、Glu豐度、Phe豐度、Gly豐度、His豐度、Ile豐度、Lys豐度、Leu豐度、Met豐度、Asn豐度、Pro豐度、Gln豐度、Arg豐度、Ser豐度、Thr豐度、Val豐度、Trp豐度和Tyr豐度。利用該方法構建蛋白質組數據庫時,不限制接收的蛋白序列的數目,即不限制所構建的蛋白質組數據庫包含的序列數目,較佳的,接收的蛋白序列為幾十條、幾百條、幾千條或者幾萬條,或者更多。消除接收的每個蛋白序列的起始氨基酸,例如消除每個真核生物蛋白序列一般都有的起始甲硫氨酸,獲得相應的甲硫氨酸截斷序列(M-truncated sequence,MTS),真核生物或者原核生物的蛋白一般都具有相同的起始氨基酸。這樣,消除原始數據的共性,基于接收數據的差異進行數據庫構建,利于蛋白質組數據庫構建,也利于構建得的數據庫用于蛋白定位和/或分類。
依據本發明的第二方面,本發明提供一種蛋白質組數據庫,其根據上述本發明一方面的構建蛋白質組數據庫的方法構建獲得。該蛋白質組數據庫,其數據表的字段為蛋白序列本身固有的理化性質指標。將數據表作為坐標系統,其各個記錄即每條蛋白序列都以其理化性質參數數值作為坐標,方便對所包含的蛋白序列的組織、批量操作處理。該蛋白質組數據庫,能夠承載幾十、幾百、幾千、幾萬甚至更多的蛋白序列信息,使得能夠在多維空間中對一個全蛋白質組含有幾千至幾萬條甚至更多的蛋白序列實現定位和/或分類。
依據本發明的第三方面,本發明提供上述本發明一方面的蛋白質組數據庫在蛋白質分類和/或檢索定位中的用途。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳研究生院,未經清華大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510448466.2/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





