[發明專利]一種基于張量隨機游走的關鍵蛋白質識別方法有效
| 申請號: | 201811550297.3 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109637579B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 趙碧海;胡賽;王雷;李學勇;張帆;田清龍 | 申請(專利權)人: | 長沙學院 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B50/20;G16B25/10 |
| 代理公司: | 長沙朕揚知識產權代理事務所(普通合伙) 43213 | 代理人: | 馬家駿 |
| 地址: | 410000 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 張量 隨機 游走 關鍵 蛋白質 識別 方法 | ||
1.一種基于張量隨機游走的關鍵蛋白質識別方法,其特征在于,包括以下步驟:
S1:獲取酵母蛋白質相互作用網絡拓撲結構、蛋白質結構域信息、基于時間序列的基因表達信息以及蛋白質同源信息;
S2:根據蛋白質相互作用網絡拓撲結構、蛋白質結構域信息以及基于時間序列的基因表達信息,建立蛋白質節點相互作用中不同蛋白質節點間的關聯關系;根據所述蛋白質同源信息對蛋白質節點的樞紐得分進行初始化;
S3:以蛋白質相互作用中不同蛋白質節點間的關聯關系建立張量模型;
S4:基于所述張量模型進行迭代計算得到每個蛋白質節點的樞紐得分并進行排序,將序列排行前n個蛋白質節點作為關鍵蛋白質;
所述蛋白質節點的樞紐得分的計算公式如下:
其中N(v)表示蛋白質節點v在參考物種S中擁有直系同源蛋白質的次數;
蛋白質節點的樞紐得分與鄰居節點樞紐得分和邊重要性得分相關聯;
對隨機游走算法進行一次擴展得到的二維張量模型的兩個狀態轉移模型為:
其中,表示訪問第j個蛋白質節點和選中第k種類型邊時,下一刻訪問第i個蛋白質節點的概率,表示從第j個蛋白質節點出發到第i個蛋白質節點,選中第k種類型的邊的概率,n表示蛋白質數量,m表示蛋白質之間存在m種類型的聯系。
2.根據權利要求1所述的一種基于張量隨機游走的關鍵蛋白質識別方法,其特征在于,通過聚集系數計算蛋白質相互作用網絡中不同蛋白質節點間的關聯關系的計算公式如下:
Ni和Nj分別表示蛋白質節點pi和蛋白質節點pj的鄰居節點的集合,Ni∩Nj表示蛋白質節點pi和蛋白質節點pj的共同鄰居節點集合。
3.根據權利要求1所述的一種基于張量隨機游走的關鍵蛋白質識別方法,其特征在于,根據蛋白質結構域信息計算不同蛋白質節點間的關聯關系的計算公式如下:
Weight(pi,pj)=P_D(pi)×P_D(pj)
其中,D表示不同結構域構成的集合,Dj表示包含結構域j的蛋白質數量;如果蛋白質pi包含結構域j,則tij=1,則否為0。
4.根據權利要求1所述的一種基于張量隨機游走的關鍵蛋白質識別方法,其特征在于,根據時間序列的基因表達信息計算不同蛋白質節點間的關聯關系的計算公式如下:
一個給定蛋白質v,它的n個不同時刻的基因表達可以用一個向量表示:Gen(v)={T(v,1),T(v,2),...,T(v,n)},其中,T(v,i)表示基因v在第i時刻的表達水平。
5.根據權利要求1所述的一種基于張量隨機游走的關鍵蛋白質識別方法,其特征在于,所述張量模型由隨機游走算法擴展得到,擴展的方式為模擬高階馬爾可夫鏈的方式進行擴展。
6.根據權利要求1所述的一種基于張量隨機游走的關鍵蛋白質識別方法,其特征在于,對所述張量模型進行迭代計算每個蛋白質節點的樞紐得分包括以下步驟:
S401:根據節點樞紐得分由鄰居節點樞紐得分和與之相連的邊的重要性共同決定的原則,計算節點的樞紐得分如下:
其中,yL(i)表示節點i在第L步迭代時的樞紐得分,d為跳轉概率,此處可以設置為y0(i);
S402:根據重要性邊連接兩個高樞紐得分節點的原則,計算不同類型邊的重要性得分如下:
S403:如果||YL-YL-1||+||ZL-ZL-1||≥ε,使L=L+1,返回S401繼續進行迭代,否則,迭代終止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙學院,未經長沙學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811550297.3/1.html,轉載請聲明來源鉆瓜專利網。





