[發明專利]一種基于功能模塊的生物分子網絡分析的方法有效
| 申請號: | 201410042705.X | 申請日: | 2014-01-29 |
| 公開(公告)號: | CN103778349B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 思博奧科生物信息科技(北京)有限公司 |
| 主分類號: | G06F19/12 | 分類號: | G06F19/12 |
| 代理公司: | 北京匯知杰知識產權代理事務所(普通合伙)11587 | 代理人: | 蔡倫,楊巍 |
| 地址: | 100070 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 功能模塊 生物 分子 網絡分析 方法 | ||
?
技術領域
本發明屬于生物信息技術領域。更具體而言,本發明涉及生物分子網絡如蛋白質-蛋白質相互作用網絡或基因表達調控網絡。
背景技術
過去的幾十年,分子生物學的研究對象主要是生物體內部的單個組織、細胞或基因,利用的是經典還原論的思想,研究難免留于局部。實際上,生物體是一個復雜系統,生物分子之間存在層次性關聯及相互作用,且生命現象并不是一個靜態而是一個動態演化的過程。網絡分析由于它的系統性及內部元素間的關聯性已成為研究現代生物學及系統生物學的一個重要方法。
隨著生物芯片、高通量測序、質譜等分子生物學實驗技術的飛速發展,產生了海量的基因組學、轉錄組學、蛋白質組學及代謝組學等高通量數據,并伴隨之產生了常見的生物網絡如蛋白質相互作用網絡、基因轉錄調控網絡、代謝調控網絡、非編碼基因調控網絡及各種跨組學調控網絡等。這些網絡的應用極大地促進了對基因表達調控機制、蛋白質功能機制、代謝物傳遞機制等的研究,并廣泛應用于疾病機制研究,藥物相互作用研究,育種遺傳研究和考古進化研究等領域。
生物分子網絡的復雜性,一方面體現在網絡的分子組成,比如人類的基因數為20,000~30,000個,人類蛋白質及其修飾的種類更是指數級增長;另一方面是生物分子間關系的復雜性,比如基因表達轉錄調控、轉錄后調控、非編碼基因調控及蛋白質翻譯后修飾等。一般網絡的拓撲性質可以從全局進行分析,但從整體上研究生物分子網絡的功能可行性較低。此外,生物分子網絡還具有無尺度性、小世界特征和模塊化特征,即網絡中大部分的節點度較小,而少部分節點與其它節點的連接度比較高;網絡中的大部分節點都不是直接相連的,但可以通過有限幾個節點進行連通;網絡中的部分節點呈現高聚類性,模塊內部連接緊密,模塊間連接比較稀疏。模塊是實現生物功能的主體,與功能之間的聯系也更為緊密,承擔著各個生物學功能的模塊被定義為網絡的功能模塊。因此生物網絡分析的策略是:首先從總體上分析網絡的拓撲學性質,然后是挖掘全局網絡中的模塊,最后基于網絡模塊功能分析研究全局網絡的功能機制。目前常用的網絡模塊識別算法和軟件有層次聚類、k近鄰、k均值、AutoSOME、MCL、MCODE、GLAY和MINE等,其中MCL馬爾科夫聚類算法是一種基于隨機流模擬的圖聚類算法,MCODE是給定網絡中每個節點一個權值(可以為節點的連接度),根據貪婪算法分離出網絡中稠密的區域,再對這些區域進行整合,添加或刪除節點。上述的方法中,無一例外均是采用網絡拓撲屬性進行網絡模塊的識別,然后基于基因本體論(Gene?Ontology,?GO)方法進行功能富集得到模塊的功能。這些方法存在的共同問題是在挖掘網絡模塊的時候,依據的是網絡中節點的拓撲學性質(度、聚類系數、介數等)而沒有考慮相鄰節點間的功能相似性。
發明內容
本發明結合了網絡中節點間的功能相似性和拓撲性質,使得生物分子網絡由無權重的網絡成為邊具有功能相似性權重的網絡,然后再基于權重模塊識別方法來挖掘生物網絡中的功能模塊。
本發明提供了一種基于功能模塊的生物分子網絡分析方法,通過網絡中節點間的功能相似性結合網絡的拓撲性質,篩選出網絡中功能關聯的一些節點和邊,組成功能模塊。
在一個實施方案中,對于數學化的生物網絡G(V,E),V表示網絡中的節點集合,E表示網絡中邊的集合,本發明是這樣實現的,主要包括如下流程:
步驟1,基于所述生物網絡G,構建網絡節點間的鄰接矩陣Madj,矩陣的行和列分別表示網絡中的節點集合V,矩陣由0和1構成,如果兩個節點間存在邊關系,則矩陣中此兩個節點所在行和列相交的元素為1,其他情況則為0。
步驟2,構建網絡節點間的功能相似性矩陣Msim,矩陣的行和列分別表示網絡中的節點集合V,矩陣由0.001-1之間的小數構成,如果兩個節點間存在語義相似性,則此矩陣中此兩個節點所在行和列相交的元素為這兩個節點的功能語義相似性得分;功能語義相似性得分計算優選基因本體論中的分子功能(Molecular?Function)或生物學過程(Biological?Process)語義,其次是細胞學組成(Cellular?Component)語義。如果兩個分子節點間存在完全語義相似性則值為1,如果兩個分子節點間不存在語義相似性則值為0.001,功能語義相似性方法優選GOSemSim算法(Yu?G,?Bioinformatics?2010)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思博奧科生物信息科技(北京)有限公司,未經思博奧科生物信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410042705.X/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





