[發(fā)明專利]一種針對(duì)多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法在審
| 申請(qǐng)?zhí)枺?/td> | 201310545984.7 | 申請(qǐng)日: | 2013-11-06 |
| 公開(公告)號(hào): | CN103559426A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 賈克斌;張媛 | 申請(qǐng)(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06F19/24 | 分類號(hào): | G06F19/24 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 視圖 數(shù)據(jù) 融合 蛋白質(zhì) 功能模塊 挖掘 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及一種融合多種生物數(shù)據(jù)源和蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-protein?interaction?network,PPIN)的蛋白質(zhì)功能模塊檢測(cè)方法。
背景技術(shù)
基于蛋白質(zhì)相互作用網(wǎng)絡(luò)分析蛋白質(zhì)的具體功能是目前生物信息學(xué)研究中的一大熱點(diǎn)。蛋白質(zhì)相互作用(Protein-protein?interaction,PPI)描述的是兩個(gè)蛋白質(zhì)間的物理直接連接,或者具有一致功能的兩個(gè)蛋白質(zhì)的間接連系。PPIN以每個(gè)蛋白質(zhì)為結(jié)點(diǎn),兩個(gè)蛋白質(zhì)間的相互關(guān)系作為兩結(jié)點(diǎn)的邊,形成一無向圖。在生物體內(nèi),多數(shù)蛋白質(zhì)通過相互作用形成功能意義上緊密聯(lián)系的集合,也就是功能模塊,從而共同執(zhí)行相應(yīng)的一種或多種生命活動(dòng),因此分析PPI功能意義是了解和掌握生命活動(dòng)的分子機(jī)制的基礎(chǔ)。至今,學(xué)術(shù)各界已提出多種聚類方法用來檢測(cè)PPIN中的功能模塊,其中基于非監(jiān)督學(xué)習(xí)的聚類方法是最常用的PPI模塊挖掘方法。然而,由于PPI數(shù)據(jù)的高噪聲和不完整性,聚類結(jié)果大多不能令人滿意。有學(xué)者證實(shí)酵母雙雜交實(shí)驗(yàn)(Yeast?Two-Hybrid)所檢測(cè)到的PPI的誤報(bào)率(False?Positive)可達(dá)50%。基于如此大噪聲比例的數(shù)據(jù),單純依據(jù)PPIN的拓?fù)涮卣鞑荒鼙WC得到可靠的功能模塊檢測(cè)結(jié)果。。這也是之前一些傳統(tǒng)功能模塊挖掘方法,如MCODE,CFinder,馬爾科夫聚類(Markov?Clustering,MCL)等方法的一大掣肘。
近年來生物數(shù)據(jù)收集方法日新月異,結(jié)合多種數(shù)據(jù)對(duì)PPI進(jìn)行研究成為可能。首先,基因表達(dá)數(shù)據(jù)被用于尋找共表達(dá)的基因和基因產(chǎn)物。這一方法的基本假設(shè)是,在一段生命過程中表達(dá)模式相似的基因(或基因產(chǎn)物)傾向具有相同的功能,同時(shí)在PPIN中也更傾向于相互聯(lián)系形成密集功能模塊。Segal等人依據(jù)基因共表達(dá)的模式特征來提取功能模塊;Li和Wu將基因共表達(dá)作為PPIN權(quán)重進(jìn)行網(wǎng)絡(luò)分析。另一方面,Cho等人利用基因本體注釋信息(Gene?Ontology,GO)計(jì)算蛋白質(zhì)相似度,并據(jù)此構(gòu)建了蛋白質(zhì)功能流在網(wǎng)絡(luò)中的傳輸模型,功能流所到之處被劃分為同一功能模塊。這一方法體現(xiàn)了蛋白質(zhì)功能在網(wǎng)絡(luò)中的動(dòng)態(tài)傳遞概念,并解決了多功能蛋白質(zhì)的多功能模塊從屬,即功能模塊的重疊問題。
這些方法均達(dá)到一定程度的成功。然而不同的數(shù)據(jù)各有傾向:基因共表達(dá)傾向于檢測(cè)細(xì)胞生命過程中表達(dá)模式一致的蛋白質(zhì)群,而GO則是靜態(tài)描述的功能信息。同時(shí),二者各有弊端:首先,基因表達(dá)數(shù)據(jù)在收集過程中,實(shí)驗(yàn)本身引入的噪聲不可避免;其次,由于人類技術(shù)所限,還有豐富的基因功能特質(zhì)依然未知,GO注釋信息也仍在不斷完善。將每個(gè)角度所獲得的數(shù)據(jù)看做一個(gè)視圖。如何從多視圖中提取出最準(zhǔn)確的信息是生物信息學(xué)及數(shù)據(jù)挖掘界一直面臨的難題。
發(fā)明內(nèi)容
針對(duì)蛋白質(zhì)相互作用數(shù)據(jù)的高噪聲問題,提出一種針對(duì)多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法。本方法著眼于同時(shí)分析多生物數(shù)據(jù),包括基因共表達(dá)、GO注釋和PPIN,從多視圖中提取聚合特征最為一致的蛋白質(zhì)功能模塊。該方法尤其適用于蛋白質(zhì)相互作用網(wǎng)絡(luò)和多生物數(shù)據(jù)的融合分析,同時(shí)可應(yīng)用于社交復(fù)雜網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)的社區(qū)挖掘問題。
本發(fā)明所采取的技術(shù)方案是:首先,量化多個(gè)數(shù)據(jù)源對(duì)蛋白質(zhì)相互作用的強(qiáng)弱描述,形成多視圖數(shù)據(jù);進(jìn)而,利用本發(fā)明提出的聚合非負(fù)矩陣算法對(duì)多視圖數(shù)據(jù)進(jìn)行一致矩陣分解,通過得到對(duì)多視圖信息的最優(yōu)近似,確定蛋白質(zhì)的功能模塊。
一種針對(duì)多視圖數(shù)據(jù)融合的蛋白質(zhì)功能模塊挖掘方法,包括以下步驟:
步驟1:構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的鄰接矩陣A。
每個(gè)結(jié)點(diǎn)順序編號(hào)并標(biāo)記為(1,2,…,N),N為結(jié)點(diǎn)總數(shù)。結(jié)點(diǎn)i、j間的邊記為eij,且0<i<N,0<j<N;忽略自相關(guān)關(guān)系,A的對(duì)角線元素全部設(shè)定為0。由于相互作用無方向指向,因此A為對(duì)稱矩陣。
步驟2:計(jì)算基因表達(dá)模式的相似程度。
采用Pearson相關(guān)系數(shù)計(jì)算基因表達(dá)模式的相似程度,并歸一化至[0,1]。
步驟3:計(jì)算基因表達(dá)譜上的相似矩陣。
將基因共表達(dá)相關(guān)系數(shù)作為eij的權(quán)重,與PPIN結(jié)合,獲得基因表達(dá)譜上的相似矩陣wCO:
wCOij=CoExpij×Aij
其中,CoExp為基因共表達(dá)相關(guān)系數(shù);×代表元素相乘。
步驟4:提取蛋白質(zhì)所對(duì)應(yīng)的基因本體標(biāo)注。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310545984.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





