[發明專利]基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法有效
| 申請號: | 201610173526.9 | 申請日: | 2016-03-23 |
| 公開(公告)號: | CN105653885B | 公開(公告)日: | 2019-05-14 |
| 發明(設計)人: | 吳慶耀;譚明奎;陳健;韓超;宋恒杰 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 實例 標的 馬爾可夫鏈 注釋 蛋白質 功能 方法 | ||
1.基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其特征在于:包括以下步驟:
S1、從蛋白質全信息數據庫中獲取生物三域系統的蛋白質序列數據,所述的蛋白質中的每個結構域處理成一個特征向量,所述的蛋白質的功能是指基因本體中的分子功能;
S2、計算蛋白質數據集中每兩個蛋白質之間的Hausdorff距離,并使用距離的倒數作為蛋白質之間的相似性度量;具體包括:
S21分別計算每兩個蛋白質之間的最大、最小和平均Hausdorff距離,三種距離的具體定義如下:
a、最大Hausdorff距離
b、最小Hausdorff距離
c、平均Hausdorff距離
其中,Xi是數據集中第i個蛋白質,x(i)是蛋白質的第i個結構域,|·|表示蛋白質中結構域的個數,mindis(x(j),Xi)的定義如下:
其中,||·||表示兩個結構域之間的歐式距離;
S22、每兩個蛋白質之間的Hausdorff距離取三種距離的均值,均值的計算公式具體如下:
所述的使用距離的倒數作為蛋白質之間的相似性度量,具體公式如下:
S3、使用已經注釋功能的蛋白質數據學習馬爾可夫鏈模型,具體的學習步驟如下:
S31、十折交叉驗證
將已經注釋功能的蛋白質數據集平均分成十份,依次將每份作為測試集,其余作為訓練集,測試當前參數設置下模型的性能;
S32、初始化
1)類標概率轉移矩陣
將已經注釋功能的蛋白質數據集中蛋白質之間的Hausdorff相似性矩陣P列歸一化;
2)類標概率分布矩陣
其中,Dtrain和Dtest分別是蛋白質的訓練數據集和測試數據集,Ci表示第i個蛋白質的功能集,L表示蛋白質的功能集,Lj表示第j個功能;
3)已知的類標分布矩陣
將已知的類標分布矩陣Q行歸一化;
S33、稀釋類標概率分布矩陣
將類標概率分布矩陣D行歸一化,使用稀釋函數fs稀釋類標概率分布矩陣,具體公式如下:
其中,Rank(Dij)是蛋白質i具有功能j的概率,m是稀釋參數,表示蛋白質屬于功能的概率的可信個數;
S34、學習馬爾可夫鏈模型
D=(1-α)Pfs(D)+αQ
其中,D是蛋白質類標概率分布矩陣,P是類標概率轉移矩陣,Q是已知的類標分布矩陣,α是初始類標信息的比例參數fs(D)是類標概率分布矩陣的稀釋函數;
S35、學習終止條件
如果||Dt-Dt-1||<∈,學習終止,保存參數α、m和∈;否則t=t+1,回到步驟S33;其中t是計算的第t個類別概率分布矩陣,初始值為0,∈是兩個矩陣的偏差;
S36、模型性能測試
根據最終計算的類標概率分布矩陣注釋測試集中蛋白質的功能,并和實際的注釋功能做對比,使用多類標評估函數度量當前參數設置下模型的性能;
S37、選擇最優模型
使用參數α、m和∈的不同值計算蛋白質的類標概率分布矩陣,選擇模型性能最優時的參數設置作為最終的注釋蛋白質功能的模型參數值。
2.根據權利要求1所述的基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其特征在于:步驟S1所述的蛋白質被視為對象,蛋白質的結構域被視為實例,蛋白質的功能被視為類標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610173526.9/1.html,轉載請聲明來源鉆瓜專利網。





