[發(fā)明專利]一種基于鄰接蛋白的蛋白功能注釋方法在審

申請?zhí)枺?/td>	201610012805.7	申請日：	2016-01-11
公開（公告）號：	CN105678109A	公開（公告）日：	2016-06-15
發(fā)明（設計）人：	郝彤;彭瑋;孫金生	申請（專利權）人：	天津師范大學
主分類號：	G06F19/18	分類號：	G06F19/18
代理公司：	天津市杰盈專利代理有限公司 12207	代理人：	朱紅星
地址：	300387 ***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于鄰接蛋白功能注釋方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明屬于生物信息學技術領域，涉及一種基于鄰接蛋白的蛋白功能注釋方法。

背景技術

隨著基因測秩序技術逐步提升，新發(fā)現(xiàn)的蛋白序列也在日益增多，雖然對于蛋白的功能注釋已經(jīng)進行了大量的研究，目前仍然存在大量功能無法預知的蛋白，由于許多生物體生命活動機理的分析和研究需建立在對蛋白功能進行分析的基礎上，因此未知蛋白的存在對于這些研究產(chǎn)生了阻礙。因此，近些年來，越來越多的研究針對蛋白功能預測展開。對于一個新測序的蛋白，其功能可以通過與已知的蛋白序列數(shù)據(jù)庫（如Uniprot）進行 BLASTP比對來預測，或利用其蛋白編號或名稱從GeneOntology數(shù)據(jù)庫查詢其功能注釋，而通過數(shù)據(jù)庫比對無法找到功能注釋的蛋白，則需通過其他方法進行進一步的分析。利用蛋白互作網(wǎng)絡進行功能注釋的研究在這樣的背景下展開，對于蛋白互作網(wǎng)絡中未知蛋白的功能的注釋，目前大多采用聚類方法進行，如通過結合分類樹和模塊化指標進行功能模塊劃分，將模塊中所有已知蛋白的功能注釋賦予未知蛋白，從而對未知蛋白進行功能注釋的方法（參考文獻：LectureNotesInElectricalEngineering,Volume322,2015,pp 831-837），該類方法的注釋結果全面性較好，而準確性不足。本文提出了基于鄰接蛋白對未知蛋白進行功能注釋的方法，該方法在功能注釋過程中綜合考慮未知蛋白周邊各已知鄰居蛋白的功能，從而決定未知蛋白的功能，該方法設計更為符合生物體中相互作用的蛋白傾向于具有相似功能的原理，能夠得到高質(zhì)量的蛋白功能注釋。

運用此方法需具備蛋白互作網(wǎng)絡、GO術語信息和Perl軟件。該方法利用“就近一致”的中心思想，形成了為蛋白網(wǎng)絡中未知功能蛋白添加GO注釋的方法，為進一步預測蛋白功能以及研究子網(wǎng)絡參與的生物過程奠定基礎。

發(fā)明內(nèi)容

一種基于鄰接蛋白的蛋白功能注釋方法，其特征在于它是由確定未知功能蛋白、統(tǒng)計未知功能蛋白鄰接節(jié)點注釋信息以及添加未知功能蛋白GO注釋組成，使用perl語言實現(xiàn)該算法，具體步驟如下：

（1）確定未知功能蛋白:蛋白質(zhì)互作網(wǎng)絡中，相互作用的兩個蛋白稱之為節(jié)點，其相互之間的作用稱之為邊,蛋白互作網(wǎng)絡中的已知蛋白是指在GeneOntology數(shù)據(jù)庫中能夠根據(jù)蛋白編號找到相應的GO功能注釋的蛋白，而相對的，無法找到GO功能注釋的蛋白即為未知功能蛋白。

（2）統(tǒng)計未知功能蛋白鄰接節(jié)點注釋信息：確定未知功能蛋白后，分別統(tǒng)計他們鄰接蛋白的GO注釋信息。對于一個未知功能蛋白，首先找到該蛋白所有的鄰接蛋白，統(tǒng)計這些鄰接蛋白都有哪些GO注釋，并統(tǒng)計在所有鄰接蛋白包含的GO注釋中，每個GO注釋標注了多少個鄰接蛋白，其標注的鄰接蛋白數(shù)占所有有GO注釋的鄰接蛋白總數(shù)的百分比，將該百分比設為p。即

（3）添加未知功能蛋白GO注釋,具體步驟如下：

1）若A為未知功能蛋白，且A僅有一個鄰接蛋白B，則將B的所有功能注釋賦給蛋白A；

2）若A有多于一個鄰接節(jié)點，此時需要確定一個合適的臨界值，并計算鄰接蛋白包含的每一個GO注釋的p值，當某個GO注釋的p值大于等于臨界值時，就將這個GO注釋賦予A；

（4）重復步驟（1）-（3），直到已添加注釋個數(shù)不再發(fā)生變化為止。

以圖1為例，其中A、B、C是未知蛋白，D、E、F、G、H是已知蛋白。在第一輪循環(huán)中，未知蛋白A具有功能注釋的鄰接蛋白（D和E）個數(shù)為2，D蛋白的功能注釋是2,3,4，E蛋白的功能注釋是1,2,6,7，如果設定的臨界值為0.75，則在A的鄰接蛋白的所有功能注釋1,2,3,4,6,7 中，僅有2的p=1，滿足p≥0.75的條件，那么A這一未知蛋白被賦予的功能注釋則為2；同理，未知蛋白C的鄰接蛋白所具有的功能注釋中，僅有功能9的p值滿足p≥0.75的條件，因此將功能9賦予C蛋白；B蛋白僅有一個鄰接節(jié)點F具有功能注釋，則將F的功能注釋4,5,6全部賦予B蛋白。綜上，在第一次循環(huán)中A蛋白的功能注釋為2，B蛋白的功能注釋為4,5,6，C蛋白的功能注釋為9。在第二次循環(huán)中A蛋白有三個具有功能注釋的鄰接蛋白B、D、E，根據(jù)同樣的原則，該輪循環(huán)中A蛋白新添加功能注釋4和6，即具有功能注釋2，4和6，同理，C蛋白新添加功能注釋6，具有功能注釋6和9。按照這個方法不斷循環(huán)，直至所有未知蛋白都不再添加新功能注釋為止。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于天津師范大學，未經(jīng)天津師范大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610012805.7/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。