[發明專利]一種基于基因本體信息的蛋白質序列表示方法有效
| 申請號: | 201710071092.6 | 申請日: | 2017-02-09 |
| 公開(公告)號: | CN106845149B | 公開(公告)日: | 2019-04-09 |
| 發明(設計)人: | 肖絢;程翔 | 申請(專利權)人: | 景德鎮陶瓷大學 |
| 主分類號: | G16B15/20 | 分類號: | G16B15/20;G16B20/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 333001 江西省*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 基因 本體 信息 蛋白質 序列 表示 方法 | ||
本發明涉及一種新的基于基因本體信息的蛋白質序列表示方法,首先使用BLAST程序搜索Swiss?Prot數據庫找到蛋白質序列P所有的相似蛋白質序列,將訓練數據集中所有蛋白質輸入到GO數據庫中,搜尋每個蛋白質所具有的GO本體信息;然后在基因本體庫中搜尋P蛋白質所具有的標注基因本體信息;根據預測問題具有的M個標簽,將P蛋白質定義為M個元素的離散向量。本方法通過將序列集中的蛋白質GO信息,融合成新的蛋白質P的向量描述,使得采用GO方法維度大大降低,用于蛋白質亞細胞多標簽定位預測和抗菌肽功能多標簽預測中,能明顯提高相關預測器的預測成功率,具有廣闊的運用前景。
技術領域
本發明涉及生物信息學、蛋白質偽氨基酸成分和傳統的蛋白質序列分析技術領域,尤其涉及一種新的基于基因本體信息的蛋白質序列表示方法。
背景技術
隨著近二十年來測序技術的進步,生物信息學進入到后基因組時代。如何分析數以億計的基因組序列,如蛋白質工作于哪些亞細胞、具有何種功能、具有什么樣的二級結構、三級結構和四級結構,這些基因又是如何使生命體具有活性,哪些蛋白質可能是潛在的藥物靶標等一系列的問題的答案,是當前研究的熱點。
由于上述問題采用生物實驗技術存在費時費力的原因,生物信息學近年得到了極大發展,一系列在線預測器面世。雖然這些預測器所預測的結果還需要生物實驗進行驗證,但預測的結果對生物學家還是具有很大的幫助,如縮小實驗的范圍,對基因藥物設計進行輔助作用等。
這些預測器有些是基于序列信息的,有些是基于結構信息,還有些是基于最新的測序信息。基于序列信息的預測器的預測效果一般比基于結構信息的低,但其所需信息大都存在所以得到極大的發展。在基于序列信息的預測器中大都采用偽氨基酸成分來描述蛋白質序列,這些偽氨基酸成分如:二聯體成分、三聯體成分、灰色理論因子、復雜度因子等有的能很好的描述蛋白質序列局部氨基酸順序信息,有的能很好的描述蛋白質序列的全局氨基酸順序信息,對基于序列的蛋白質結構和功能分類預測都起到了積極作用。
近年隨著基因本體論的出現,它已經成為生物信息領域中一個極為重要的方法和工具,極大的加深了我們對生物數據的整合和利用。采用基因本體(Go Ontology)信息對蛋白質結構和功能進行預測比其它方法如功能域和偽氨基酸成分預測效果都要好。基因本體涉及的基因和基因產物詞匯分為三大類,涵蓋生物學的三個方面:1)細胞組分;2)分子功能;3)生物過程。基因本體庫中所含有的術語也從幾千增加到5萬多。基因本體是一個有向無環圖型的本體,目前GO中使用了is_a、part_of和regulates三種關系。基于基因本體信息進行相關預測的方法中常用的是采用0-1離散向量法,蛋白質序列如果含有每個基因本體則這個向量對應的元素為1,如果沒有則為0。這種方法僅僅是簡單的計算了有無信息,有些學者對此進行了改進,計算出某個蛋白質中具體基因本體出現的次數,這樣就將0-1離散向量改為整數向量,增加了頻次信息。上述這些方法由于基因本體庫中的詞匯的增加,會造成維數災難。為此有些學者針對所預測問題與基因本體的相關性,并不采用所有基因本體所有的詞庫,而是采用部分,這樣就減少了離散向量的維度,去掉了些無關信息。
除了采用離散向量方法,還有基于基因本體的語義相似度算法,主要包括基因本體同一分支中的術語相似度計算法和基因本體跨分支術語相似度算法,這些對基因功能分析、比較和預測等生物學研究熱門領域具有非常重要的意義。但由于基因本體術語的急劇增加,這些算法的復雜度和計算時間也增加。
上述方法都是基于對基因本體進行簡單的求和統計或者進行相似性計算,但由于并不是所有的蛋白質在GO數據庫中都有相關的信息,這是基于GO信息方法的缺陷,為此本發明將GO信息與其他相似蛋白質GO信息相融合,并針對所預測問題的分類數量,降低GO描述向量方法的維度,設計出一種新的基于GO信息的蛋白質序列描述方法對基于序列信息的蛋白質功能和結構類型預測等提供幫助。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于景德鎮陶瓷大學,未經景德鎮陶瓷大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710071092.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





