[發明專利]一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法在審
| 申請號: | 202010767169.5 | 申請日: | 2020-08-03 |
| 公開(公告)號: | CN112071362A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 劉光明;丁翠;王彬;李愛民;劉雅君;羅靖 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G16B40/30 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 寧文濤 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 全局 局部 拓撲 結構 蛋白質 復合體 檢測 方法 | ||
1.一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法,其特征在于,按照以下步驟實施:
步驟1、獲取用于實驗測試的蛋白質互作網絡數據集,并對數據集進行預處理;
步驟2、將步驟1預處理得到的蛋白質互作網絡數據集轉換成網絡對應的鄰接矩陣A;
步驟3、依據蛋白質互作網絡的拓撲特性對非負矩陣分解算法加以改進,構建一種蛋白質復合體檢測模型;
步驟4、對步驟3所形成的模型進行訓練和測試,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七個指標值對訓練結果進行評估;
步驟5、對最終輸出的蛋白質復合體進行基因的富集分析,從而檢測出待測蛋白質復合體所代表的生物功能。
2.根據權利要求1所述的一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法,其特征在于,所述的步驟1中預處理的具體過程為:獲取到的蛋白質互作網絡數據集每一行有兩個蛋白質節點,將每個蛋白質節點的SYMBOL字符串形式均轉換成數字形式,同時保持蛋白質互作網絡的整體結構不變即可。
3.根據權利要求2所述的一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法,其特征在于,所述步驟2的具體步驟為:
步驟2.1、求出步驟1預處理之后網絡數據集的最大值n,構建一個n×n的初始矩陣A;
步驟2.2、按行遍歷網絡數據集,將每一行的兩個蛋白質節點數字依次作為i、j,并且將初始矩陣A[i][j]置1,其余的置0;
步驟2.3、將初始矩陣A的主對角線元素置1,即構建出鄰接矩陣A。
4.根據權利要求3所述的一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法,其特征在于,所述步驟3具體步驟為:
步驟3.1、根據步驟2求得的鄰接矩陣A計算得到蛋白質間的自表示系數矩陣Z;
步驟3.2中對非負矩陣分解算法加以改進,形成一種新的蛋白質復合體檢測模型,其模型對應的目標函數為:
其中,代表求解矩陣的F2范數,A代表蛋白質互作網絡對應的鄰接矩陣,A∈Rn×n,R表示正實數域,n代表蛋白質網絡中的總節點數,Z代表蛋白質間的自表示系數矩陣,Z∈Rn×n,W代表基矩陣,W∈Rn×k,k代表蛋白質互作網絡的蛋白質復合體劃分種類值,H代表劃分矩陣,H∈Rn×k,S代表蛋白質間的Jaccard相似度矩陣,S∈Rn×n,D代表S對應的對角矩陣,L=D-S,是Jaccard相似度矩陣S對應的拉普拉斯矩陣,矩陣Z≥0,W≥0,H≥0,tr代表求解矩陣的跡,λ是用來平衡全局拓撲特性和局部拓撲特性的參數,T表示矩陣的轉置;
步驟3.3、對步驟3.2得到的目標函數進行求解,求解的具體過程為:
首先對目標函數min J求導,結果為:
再根據KKT條件獲得矩陣Z、W、H的乘性迭代公式為:
其中,表示兩個矩陣之間的點乘;
步驟3.4、根據步驟3.3獲得的乘性迭代公式構建新的蛋白質復合體檢測模型。
5.根據權利要求1所述的一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法,其特征在于,所述步驟4的具體過程為:對步驟3形成的模型,使用蛋白質互作網絡數據集進行多次訓練,并且使用precision、recall、F-score、Sn、PPV、Acc、MMR七個指標值對訓練結果進行評估。
6.根據權利要求1所述的一種融合全局和局部拓撲結構的蛋白質復合體的檢測方法,其特征在于,所述步驟5的具體步驟為:
步驟5.1、將蛋白質互作網絡數據作為最終模型的輸入,然后對模型進行訓練,輸出對應的蛋白質復合體;
步驟5.2、對步驟5.1輸出的蛋白質復合體使用如下所示的超幾何分布公式計算相應的p-value值;
其中,t代表所有蛋白質拓撲模塊中的蛋白質的數量,k表示一個蛋白質模塊中的蛋白質數量,m是指某個基因本體術語所注解的蛋白質的數量,q是某個基因本體術語在一個特定的蛋白質拓撲模塊中所注解的蛋白質的數量,X表示一個隨機變量,x表示X的一個具體取值;
步驟5.3、對每個蛋白質復合體得到的p-value值進行排序,將最小的p-value值對應的基因本體術語作為該蛋白質復合體的功能注釋。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010767169.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于旅行商問題算法和流潮分析的電網構建方法
- 下一篇:一種泥漿攪拌系統





