[發(fā)明專利]基于多實(shí)例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法有效
| 申請?zhí)枺?/td> | 201610173526.9 | 申請日: | 2016-03-23 |
| 公開(公告)號(hào): | CN105653885B | 公開(公告)日: | 2019-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 吳慶耀;譚明奎;陳健;韓超;宋恒杰 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G16B20/00 | 分類號(hào): | G16B20/00 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 何淑珍 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 實(shí)例 標(biāo)的 馬爾可夫鏈 注釋 蛋白質(zhì) 功能 方法 | ||
本發(fā)明公開了一種基于多實(shí)例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,所述方法包括:從蛋白質(zhì)全信息數(shù)據(jù)庫中獲取生物三域系統(tǒng)的蛋白質(zhì)序列數(shù)據(jù),所述的蛋白質(zhì)中的每個(gè)結(jié)構(gòu)域處理成一個(gè)特征向量,所述的蛋白質(zhì)的功能是指基因本體中的分子功能;計(jì)算蛋白質(zhì)數(shù)據(jù)集中每兩個(gè)蛋白質(zhì)之間的Hausdorff距離,并使用距離的倒數(shù)作為蛋白質(zhì)之間的相似性度量;使用已注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,并根據(jù)學(xué)習(xí)的模型注釋未知功能的蛋白質(zhì)。本發(fā)明使用多實(shí)例多類標(biāo)學(xué)習(xí)框架中的計(jì)算方法注釋蛋白質(zhì)的功能,使用Hausdorff距離計(jì)算蛋白質(zhì)之間的相似性,學(xué)習(xí)馬爾可夫鏈模型計(jì)算蛋白質(zhì)的類標(biāo)概率分布,并根據(jù)概率分布注釋未知功能的蛋白質(zhì)。
技術(shù)領(lǐng)域
本發(fā)明涉及蛋白質(zhì)組學(xué)技術(shù)領(lǐng)域,具體涉及基于多實(shí)例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法。
背景技術(shù)
隨著人類基因組計(jì)劃的完成,生命科學(xué)研究進(jìn)入了后基因組時(shí)代,即工作重點(diǎn)從揭示生命的所有遺傳信息轉(zhuǎn)移到遺傳信息的功能研究。基因是遺傳信息的載體,而基因的表達(dá)產(chǎn)物--蛋白質(zhì)執(zhí)行各種各樣的生物功能。蛋白質(zhì)的功能注釋是在分子水平上闡明生命本質(zhì),對病理機(jī)制研究、臨床診斷、潛在藥物靶標(biāo)識(shí)別以及新醫(yī)藥開發(fā)等具有重要作用。隨著高通量測序技術(shù)的發(fā)展,各種各樣的數(shù)據(jù)庫已經(jīng)存儲(chǔ)了海量的蛋白質(zhì)序列信息,但僅有很少一部分具有功能注釋。如UniProt全信息蛋白質(zhì)數(shù)據(jù)庫中完成蛋白質(zhì)功能注釋的不足1%,因此,僅通過人工對蛋白質(zhì)功能進(jìn)行注釋是不可能的。使用計(jì)算的方法來注釋蛋白質(zhì)功能已經(jīng)成為后基因組時(shí)代的重要研究課題之一。
目前已經(jīng)有大量的計(jì)算方法用于注釋蛋白質(zhì)的功能,如基于蛋白質(zhì)序列信息、結(jié)構(gòu)信息、網(wǎng)絡(luò)信息或集成的方法。結(jié)構(gòu)域是蛋白質(zhì)中的一類結(jié)構(gòu)單元,可以一個(gè)獨(dú)立完成或幾個(gè)共同完成一項(xiàng)生理功能。通常,幾個(gè)結(jié)構(gòu)域共同組成一個(gè)具有多種功能的蛋白質(zhì)。這和多實(shí)例多類標(biāo)學(xué)習(xí)框架的結(jié)構(gòu)類似,為使用計(jì)算的方法來注釋蛋白質(zhì)功能提供了一種新的可能。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于多實(shí)例多類標(biāo)學(xué)習(xí)框架的注釋蛋白質(zhì)功能的方法,本發(fā)明的目的可以通過采取如下方案實(shí)現(xiàn)。
基于多實(shí)例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,其包括如下步驟:
S1、從蛋白質(zhì)全信息數(shù)據(jù)庫中獲取生物三域系統(tǒng)的蛋白質(zhì)序列數(shù)據(jù),所述的蛋白質(zhì)中的每個(gè)結(jié)構(gòu)域處理成一個(gè)特征向量,所述的蛋白質(zhì)的功能是指基因本體中的分子功能;
S2、計(jì)算蛋白質(zhì)數(shù)據(jù)集中每兩個(gè)蛋白質(zhì)之間的Hausdorff距離,并使用距離的倒數(shù)作為蛋白質(zhì)之間的相似性度量;
S3、使用已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,并根據(jù)學(xué)習(xí)的模型注釋未知功能的蛋白質(zhì)。
作為一種具體的實(shí)施方案,步驟S1中,所述的蛋白質(zhì),具體為蛋白質(zhì)和其結(jié)構(gòu)域分別被視為多實(shí)例多類標(biāo)學(xué)習(xí)框架中的對象和實(shí)例,蛋白質(zhì)的功能被視為多實(shí)例多類標(biāo)學(xué)習(xí)框架中的類標(biāo)。
作為一種具體的實(shí)施方案,步驟S2中,所述的計(jì)算蛋白質(zhì)數(shù)據(jù)集中每兩個(gè)蛋白質(zhì)之間的Hausdorff距離,具體計(jì)算方法如下:
S21、分別計(jì)算每兩個(gè)蛋白質(zhì)之間的最大、最小和平均Hausdorff距離;
S22、每兩個(gè)蛋白質(zhì)之間的Hausdorff距離取三種距離的均值。
作為一種具體的實(shí)施方案,步驟S3中,所述的馬爾可夫鏈模型,具體如下式:
D=(1-α)Pfs(D)+αQ
其中,D是蛋白質(zhì)類標(biāo)概率分布矩陣,P是類標(biāo)概率轉(zhuǎn)移矩陣,Q是已知的類標(biāo)分布矩陣,α是初始類標(biāo)信息的比例參數(shù),fs是類標(biāo)概率分布矩陣的稀釋函數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610173526.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 管理對象實(shí)例別名的方法和設(shè)備
- 軟件分發(fā)方法和裝置
- 虛擬資源分配方法、NFVO和系統(tǒng)
- 受管理的容器實(shí)例
- 具有連接到PMOSFET接頭的源極和漏極的阻抗元件的電路
- 一種實(shí)例分割方法、圖像處理設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種處理應(yīng)用實(shí)例的方法及裝置
- 實(shí)例自適應(yīng)調(diào)整方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及設(shè)備
- 預(yù)留實(shí)例預(yù)估方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種行為識(shí)別方法、裝置及設(shè)備
- 目標(biāo)內(nèi)容結(jié)構(gòu)的管理及顯示方法和記錄媒體
- 用于跟蹤目標(biāo)的裝置、跟蹤目標(biāo)的方法和跟蹤目標(biāo)的程序
- 一種基于網(wǎng)絡(luò)的拍賣方法及系統(tǒng)
- 一種光學(xué)鏡仿真方法及裝置
- 清除應(yīng)用圖標(biāo)的角標(biāo)的方法和裝置
- 投保信息處理方法和裝置
- 監(jiān)管聯(lián)動(dòng)方法及監(jiān)管聯(lián)動(dòng)系統(tǒng)
- 庫存數(shù)據(jù)的獲取方法和裝置
- 一種跟隨量化交易分析方法、設(shè)備與存儲(chǔ)介質(zhì)
- 一種基于GPS坐標(biāo)的目標(biāo)統(tǒng)籌方法、裝置及設(shè)備
- 使用診斷故障代碼馬爾可夫鏈的故障診斷和預(yù)測
- 基于BP神經(jīng)網(wǎng)絡(luò)與馬爾可夫鏈的短期電價(jià)預(yù)測方法
- 用于對技術(shù)系統(tǒng)進(jìn)行建模的方法
- 一種用可逆單分子反應(yīng)實(shí)現(xiàn)馬爾科夫鏈的設(shè)計(jì)方法
- 一種基于時(shí)變狀態(tài)轉(zhuǎn)移概率馬爾可夫鏈的行車風(fēng)險(xiǎn)預(yù)測方法
- 基于自適應(yīng)馬氏鏈進(jìn)化的含道路坡度汽車運(yùn)行工況設(shè)計(jì)方法
- 基于馬爾可夫鏈的自組織中心K-means微電網(wǎng)場景劃分方法
- 一種基于馬爾可夫模型的僵尸網(wǎng)絡(luò)流量檢測方法及系統(tǒng)
- 一種含水層結(jié)構(gòu)變異轉(zhuǎn)移概率的地質(zhì)統(tǒng)計(jì)模擬方法及裝置
- 基于馬爾可夫鏈的網(wǎng)絡(luò)攻擊階段統(tǒng)計(jì)和預(yù)測方法





