[發明專利]一種基于張量隨機游走的關鍵蛋白質識別方法有效
| 申請號: | 201811550297.3 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109637579B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 趙碧海;胡賽;王雷;李學勇;張帆;田清龍 | 申請(專利權)人: | 長沙學院 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B50/20;G16B25/10 |
| 代理公司: | 長沙朕揚知識產權代理事務所(普通合伙) 43213 | 代理人: | 馬家駿 |
| 地址: | 410000 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 張量 隨機 游走 關鍵 蛋白質 識別 方法 | ||
本發明公開了一種基于張量隨機游走的關鍵蛋白質識別方法,包括以下步驟:獲取蛋白質相互作用網絡拓撲結構、蛋白質結構域信息、基于時間序列的基因表達信息以及蛋白質同源信息;根據上述信息,建立蛋白質節點相互作用中不同蛋白質節點間的關聯關系;根據所述蛋白質同源信息對蛋白質節點的樞紐得分進行初始化;以蛋白質相互作用中不同蛋白質節點間的關聯關系建立張量模型;基于所述張量模型進行迭代計算得到每個蛋白質節點的樞紐得分并進行排序,將序列排行前n個蛋白質節點作為關鍵蛋白質。本發明簡單有效,通過與其他方法比較,及在多個數據集上測試表明,該發明在關鍵蛋白質識別方面具有較好的預測性能。
技術領域
本發明涉及系統生物學領域,具體涉及一種基于張量隨機游走的關鍵蛋白質識別方法。
背景技術
蛋白質是構成一切細胞和組織結構必不可少的成分,是生命活動最重要的物質基礎。然而,不同的蛋白質對生命活動的重要性卻不相同。通常那些被剔除后造成有關蛋白質復合物功能喪失,并導致生物體無法生存或發育的蛋白質稱為關鍵蛋白質。關鍵蛋白質不僅是生物體生存和繁殖所必需的,而且,在生命活動中扮演重要角色。因此,關鍵蛋白質的識別有助于從系統水平上理解生命活動的內在組織和過程。同時,大量研究表明關鍵蛋白質(基因)往往是致病基因。由此可知,關鍵蛋白質的識別不僅為生物學,還為醫學等相關學科提供有價值的信息,特別是在疾病診療、藥物設計上有重要的應用前景。
目前關鍵蛋白質識別的計算方法大致可以分為生物實驗測定方法、基于網絡拓撲結構的方法和基于多元生物信息融合的方法三種。(1)、生物實驗測定方法:在生物學上,有許多的實驗方法來鑒定關鍵蛋白質,如單基因移除、RNA干擾、反義RNA和轉座子突變。然而,這些實驗方法都有一些局限性,如代價高、耗時,而且只能在少量物種上實行。(2)、基于網絡拓撲結構的方法:He等對高度節點傾向于成為關鍵蛋白質的原因進行了探索。雖然高度節點傾向于表現出關鍵性,但是網絡中仍然存在很大一部分節點具有很高的度,卻不是關鍵蛋白質。Li等發現高度節點的鄰居節點之間不存在或存在很少的相互作用關系,提出了基于局部連通性的關鍵蛋白質識別方法LAC。此外,一些經典的節點拓撲參數,包括介數、聚集系數等被引入用于關鍵蛋白質的識別。關鍵蛋白質并不是孤立存在,而是彼此之間密切聯系,傾向于成簇出現。Hart等指出關鍵性是蛋白質復合物的一種屬性,并通過實驗數據顯示出關鍵蛋白質往往大量集中于某些蛋白質復合物中,而在另一些復合物中只存在極少量的關鍵蛋白質。考慮到關鍵蛋白質的集聚特性,Wang等提出基于邊聚集系數的網絡中心性方法(Network Centrality,NC)來預測關鍵蛋白質。考慮到不同的中心性測度預測的關鍵蛋白質之間交疊較少,Chua等提出結合現有中心性測度方法(包括度,邊聚集系數,NFC和ND)來識別關鍵蛋白質。這類方法還存在一些限制。由于高通量實驗方法獲得的PPI數據包含假陽性和假陰性,這將影響關鍵蛋白質識別的準確性。因此,一些中心性方法幾個具有完整和可靠相互作用數據的物種上預測關鍵蛋白質。其次,大多數的方法很少分析其他已知關鍵蛋白質的內在屬性,而只是使用網絡的拓撲屬性。(3)、基于多元生物信息融合的方法:Tew等結合功能信息與網絡拓撲特性預測關鍵蛋白質。他們提出假設,這些關鍵蛋白質應該在功能模塊的中心才能有效地完成它們的角色,刪除這些關鍵蛋白質應該比刪除外圍的蛋白質更容易削弱模塊。基于這個假設,它們基于功能條目的相似性定義了兩個蛋白質之間的功能相似性,并提出了一種新的中心性方法:NFC,它是蛋白質與所有鄰居的功能相似性的總和。通過結合邏輯回歸模型和功能相似性,Li等構建了一個加權網絡,并且基于加權網絡定義了六種加權中心性方法(DC、BC、CC、SC、EC和IC)。有研究表明,關鍵蛋白質強烈集群在一起,關鍵性是蛋白質復合物的產物,而非單個蛋白質。Ren等結合PPI網絡的拓撲特性和蛋白質復合物信息提出了一種新的關鍵蛋白質識別方法。對于一個蛋白質,他們使用SC(Complex Centrality)描述其在PPI網絡中的重要性。復合物中心性是蛋白質在所有復合物的入度總和。考慮到關鍵蛋白質的模塊性以及共聚集和共表達之間的緊密聯系,Li等結合相互作用數據和基因表達數據提出了一種新的關鍵蛋白質預測方法Pec。最近,Zhang等通過改進Pec,提出一種名為CoEWC的關鍵蛋白質挖掘方法,該方法結合了PPI網絡的拓撲特征和共表達的相互作用的蛋白質。考慮到關鍵蛋白質比非關鍵蛋白質更保守,它們相互綁定在一起更頻繁。Peng等結合同源信息和PPI網絡,提出了一種迭代的關鍵蛋白質預測方法。然而,融入多源生物數據后,蛋白質(基因)之間的聯系變得更加復雜,生物網絡具有節點異質性、關系多類型以及關系超二元型等特點。上述方法不足以刻畫多關系網絡的復雜作用關系,容易忽視生物特性,掩蓋多源數據的內在屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙學院,未經長沙學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811550297.3/2.html,轉載請聲明來源鉆瓜專利網。





