[發(fā)明專利]一種基于鄰接蛋白的蛋白功能注釋方法在審
| 申請?zhí)枺?/td> | 201610012805.7 | 申請日: | 2016-01-11 |
| 公開(公告)號: | CN105678109A | 公開(公告)日: | 2016-06-15 |
| 發(fā)明(設計)人: | 郝彤;彭瑋;孫金生 | 申請(專利權)人: | 天津師范大學 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 天津市杰盈專利代理有限公司 12207 | 代理人: | 朱紅星 |
| 地址: | 300387 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 鄰接 蛋白 功能 注釋 方法 | ||
技術領域
本發(fā)明屬于生物信息學技術領域,涉及一種基于鄰接蛋白的蛋白功能注釋方法。
背景技術
隨著基因測秩序技術逐步提升,新發(fā)現(xiàn)的蛋白序列也在日益增多,雖然對于蛋白 的功能注釋已經(jīng)進行了大量的研究,目前仍然存在大量功能無法預知的蛋白,由于許多生 物體生命活動機理的分析和研究需建立在對蛋白功能進行分析的基礎上,因此未知蛋白的 存在對于這些研究產(chǎn)生了阻礙。因此,近些年來,越來越多的研究針對蛋白功能預測展開。 對于一個新測序的蛋白,其功能可以通過與已知的蛋白序列數(shù)據(jù)庫(如Uniprot)進行 BLASTP比對來預測,或利用其蛋白編號或名稱從GeneOntology數(shù)據(jù)庫查詢其功能注釋,而 通過數(shù)據(jù)庫比對無法找到功能注釋的蛋白,則需通過其他方法進行進一步的分析。利用蛋 白互作網(wǎng)絡進行功能注釋的研究在這樣的背景下展開,對于蛋白互作網(wǎng)絡中未知蛋白的功 能的注釋,目前大多采用聚類方法進行,如通過結合分類樹和模塊化指標進行功能模塊劃 分,將模塊中所有已知蛋白的功能注釋賦予未知蛋白,從而對未知蛋白進行功能注釋的方 法(參考文獻:LectureNotesInElectricalEngineering,Volume322,2015,pp 831-837),該類方法的注釋結果全面性較好,而準確性不足。本文提出了基于鄰接蛋白對未 知蛋白進行功能注釋的方法,該方法在功能注釋過程中綜合考慮未知蛋白周邊各已知鄰居 蛋白的功能,從而決定未知蛋白的功能,該方法設計更為符合生物體中相互作用的蛋白傾 向于具有相似功能的原理,能夠得到高質(zhì)量的蛋白功能注釋。
運用此方法需具備蛋白互作網(wǎng)絡、GO術語信息和Perl軟件。該方法利用“就近一 致”的中心思想,形成了為蛋白網(wǎng)絡中未知功能蛋白添加GO注釋的方法,為進一步預測蛋白 功能以及研究子網(wǎng)絡參與的生物過程奠定基礎。
發(fā)明內(nèi)容
一種基于鄰接蛋白的蛋白功能注釋方法,其特征在于它是由確定未知功能蛋白、 統(tǒng)計未知功能蛋白鄰接節(jié)點注釋信息以及添加未知功能蛋白GO注釋組成,使用perl語言實 現(xiàn)該算法,具體步驟如下:
(1)確定未知功能蛋白:蛋白質(zhì)互作網(wǎng)絡中,相互作用的兩個蛋白稱之為節(jié)點,其相互 之間的作用稱之為邊,蛋白互作網(wǎng)絡中的已知蛋白是指在GeneOntology數(shù)據(jù)庫中能夠根 據(jù)蛋白編號找到相應的GO功能注釋的蛋白,而相對的,無法找到GO功能注釋的蛋白即為未 知功能蛋白。
(2)統(tǒng)計未知功能蛋白鄰接節(jié)點注釋信息:確定未知功能蛋白后,分別統(tǒng)計他們鄰 接蛋白的GO注釋信息。對于一個未知功能蛋白,首先找到該蛋白所有的鄰接蛋白,統(tǒng)計這些 鄰接蛋白都有哪些GO注釋,并統(tǒng)計在所有鄰接蛋白包含的GO注釋中,每個GO注釋標注了多 少個鄰接蛋白,其標注的鄰接蛋白數(shù)占所有有GO注釋的鄰接蛋白總數(shù)的百分比,將該百分 比設為p。即
(3)添加未知功能蛋白GO注釋,具體步驟如下:
1)若A為未知功能蛋白,且A僅有一個鄰接蛋白B,則將B的所有功能注釋賦給蛋白A;
2)若A有多于一個鄰接節(jié)點,此時需要確定一個合適的臨界值,并計算鄰接蛋白包含的 每一個GO注釋的p值,當某個GO注釋的p值大于等于臨界值時,就將這個GO注釋賦予A;
(4)重復步驟(1)-(3),直到已添加注釋個數(shù)不再發(fā)生變化為止。
以圖1為例,其中A、B、C是未知蛋白,D、E、F、G、H是已知蛋白。在第一輪循環(huán)中,未知 蛋白A具有功能注釋的鄰接蛋白(D和E)個數(shù)為2,D蛋白的功能注釋是2,3,4,E蛋白的功能注 釋是1,2,6,7,如果設定的臨界值為0.75,則在A的鄰接蛋白的所有功能注釋1,2,3,4,6,7 中,僅有2的p=1,滿足p≥0.75的條件,那么A這一未知蛋白被賦予的功能注釋則為2;同理, 未知蛋白C的鄰接蛋白所具有的功能注釋中,僅有功能9的p值滿足p≥0.75的條件,因此將 功能9賦予C蛋白;B蛋白僅有一個鄰接節(jié)點F具有功能注釋,則將F的功能注釋4,5,6全部賦 予B蛋白。綜上,在第一次循環(huán)中A蛋白的功能注釋為2,B蛋白的功能注釋為4,5,6,C蛋白的 功能注釋為9。在第二次循環(huán)中A蛋白有三個具有功能注釋的鄰接蛋白B、D、E,根據(jù)同樣的原 則,該輪循環(huán)中A蛋白新添加功能注釋4和6,即具有功能注釋2,4和6,同理,C蛋白新添加功 能注釋6,具有功能注釋6和9。按照這個方法不斷循環(huán),直至所有未知蛋白都不再添加新功 能注釋為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津師范大學,未經(jīng)天津師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610012805.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應用的數(shù)字計算或數(shù)據(jù)處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質(zhì)相關的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡,蛋白質(zhì)交互作用網(wǎng)絡或新陳代謝作用網(wǎng)絡
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質(zhì)折疊,結構域拓撲,用結構數(shù)據(jù)的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質(zhì)組學的,例如:基因型–表型關聯(lián),不均衡連接,種群遺傳學,結合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





