[發明專利]一種基于圖卷積神經網絡的蛋白質自相互作用預測方法在審
| 申請號: | 202010638359.7 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111863121A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 王磊;閆欣 | 申請(專利權)人: | 棗莊學院 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B40/00 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 李桂存 |
| 地址: | 277132 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖卷 神經網絡 蛋白質 相互作用 預測 方法 | ||
1.一種基于圖卷積神經網絡的蛋白質自相互作用預測的方法,其特征在于,包括以下步驟:
a、數據集的選擇與建立:利用收集自UniProt、InnateDB、BioGRID、DIP和MatrixDB數據庫的蛋白質序列數據構建預測蛋白質自相互作用的數據集;
b、位置特異性評分矩陣,PSSM矩陣的構建;
c、圖卷積神經網絡的構建:利用深度學習的圖卷積神經網絡算法,將圖卷積解釋為概率度下嵌入函數的積分變換,通過逐層抽取的方式,將復雜的蛋白質進化信息數據轉換為一系列簡單的高級特征;
d、分類器模型的構建:利用隨機森林算法,通過創建多個決策樹的子分類器,并以集成的方式構建分類器模型。
2.根據權利要求1所述的方法,其特征在于,所述的步驟a,對得到的數據集需經過以下處理:
(1)從人類蛋白質組中刪除長度大于5000或小于50個殘基的蛋白質序列;
(2)被選擇作為陽性樣本的蛋白質數據至少滿足以下條件之一:A.在UniProt中,蛋白質被定義為同寡聚體;B.至少有兩篇已發表的文章報道過它們;C.至少通過兩種大規模或一種小規模實驗驗證;
(3)陰性數據集中去除了所有已知的自相互作用蛋白質。
3.根據權利要求1所述的方法,其特征在于,所述的PSSM矩陣為,將蛋白質序列轉化為N*20的矩陣,其中N代表蛋白質的殘基數,20代表為20個氨基酸種類,通過使用BLAST的位置特異性PSIBLAST將每個蛋白質都轉換成PSSM矩陣。
4.根據權利要求1所述的方法,其特征在于,所述的步驟c為利用圖卷積神經網絡提取蛋白質自相互作用拓撲圖的空間特征,其具體步驟為:
從拓撲圖中選擇一個固定長度的節點序列;
對序列中的每個節點,收集固定大小的鄰域集合;
對由當前節點及其對應的鄰域構成的子圖進行規范化,作為卷積結構的輸入;
通過逐層的卷積池化操作逐步提取出數據中隱藏的深度特征;
利用梯度下降法最小化損失函數,對網絡中的權重參數逐層反向調節,并通過多次迭代訓練提高網絡的精度。
5.根據權利要求1所述的方法,其特征在于,所述的步驟d,包括以下步驟:創建隨機森林;基于創建的隨機森林分類器進行預測;
所述的創建隨機森林具體為:
(1)從全部m個特征中隨機選擇K個特征,其中k m;
(2)在K個特征中,用最佳分裂點計算節點d;
(3)用最佳分裂將節點分裂為子節點;
(4)重復前面三步的過程,直到獲得I個數量的節點;
(5)重復第1到第4步n次創建n個樹,從而形成一個森林;
所述的基于創建的隨機森林分類器進行預測具體為:
(1)選取測試特征,用每個隨機創建的決策樹的規律去預測結果,并保存預測的結果;
(2)結算每個預測目標的得票數;
(3)將得票最多的預測目標作為隨機森林算法的最終預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于棗莊學院,未經棗莊學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010638359.7/1.html,轉載請聲明來源鉆瓜專利網。





