[發明專利]基于深層圖卷積網絡的蛋白質-蛋白質相互作用位點預測方法有效
| 申請號: | 202110502536.3 | 申請日: | 2021-05-08 |
| 公開(公告)號: | CN113192559B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 楊躍東;袁乾沐;盧宇彤 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B25/00 | 分類號: | G16B25/00;G06N3/0464;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 劉俊 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深層 圖卷 網絡 蛋白質 相互作用 預測 方法 | ||
1.一種基于深層圖卷積神經網絡的蛋白質-蛋白質相互作用位點預測方法,其特征在于:所述的方法包括步驟如下:
S1:根據蛋白質的序列和結構信息,提取節點特征矩陣和包含邊信息的鄰接矩陣,共同構成蛋白圖表征;
S2:采用基于初始殘差和恒等映射的深層圖卷積,以捕獲高階空間鄰近氨基酸的特征;并在深層圖卷積的最后一層圖卷積層的輸出,輸入一個多層感知機,實現最終預測每一個氨基酸的蛋白相互作用概率,完成構建深層圖卷積神經網絡;
S3:將訓練數據通過步驟S1提取得到蛋白圖表征,采用五折交叉驗證方法對步驟S2得到的深層圖卷積神經網絡進行訓練;
S4:將待測數據通過步驟S1提取得到蛋白圖表征,并輸入步驟S3訓練好的深層圖卷積神經網絡,實現對蛋白-蛋白相互作用位點的預測;
步驟S1,通過提取進化信息和結構信息這兩組氨基酸特征作為蛋白質的節點特征;
其中所述的進化信息包括位置特異性打分矩陣和隱馬爾可夫模型特征;
對于長度為n的蛋白質序列中的每個氨基酸,生成20維的位置特異性打分矩陣、20維的隱馬爾可夫模型特征和14維結構信息,最終組成維度為n×54的節點特征矩陣;
在位置特異性打分矩陣或隱馬爾可夫模型特征中,每個氨基酸被編碼成一個20維的向量,并利用最大-最小值歸一化將特征向量中的值歸一化至0-1之間;其中,最大-最小值歸一化的表達式如下:
其中,v是原始特征值;Min和Max是此特征類型在訓練集中觀察到的最小值和最大值;
所述的結構信息包括以下的蛋白質結構特征:
a)9維的one-hot二級結構特征,其中前8維代表8種不同的二級結構類型,最后一維代表未知的二級結構;
b)肽骨架扭轉角的正弦值和余弦值;
c)通過對應氨基酸類型的最大溶解性表面積歸一化得到的氨基酸相對溶解性;
最終,每個氨基酸生成14維的結構特征;
步驟S1,所述的鄰接矩陣的構建具體如下:
使用維度為n×n的鄰接矩陣表示蛋白圖中的邊,鄰接矩陣的構建分為兩步:
a)根據蛋白質的PDB文件,獲取每個氨基酸殘基的Cα原子坐標,并計算所有殘基對之間的歐氏距離,得到蛋白距離圖;
b)設定一個距離閾值,將蛋白距離圖中大于該距離閾值的距離值轉換成0,小于或等于該距離閾值的距離值轉換成1,從而得到離散的鄰接矩陣;
步驟S2,所述的基于初始殘差和恒等映射的深層圖卷積的表達式如下:
H(l+1)=σ(((1-α)PH(l)+αH(0))((1-βl)In+βlW(l)))
式中,σ表示線性整流函數;H(l)表示經過第l+1層卷積層之前的節點隱含狀態;H(l+1)表示經過第l+1層卷積層之后的節點隱含狀態;W(l)表示可訓練的權重矩陣;α和βl為超參數;P表示歸一化后的鄰接矩陣;
所述的多層感知機預測每一個氨基酸的蛋白相互作用概率如下:
Y′=Sotmax(H(L)W+b)
其中,H(L)表示第L層圖卷積層的輸出;W為權重矩陣;b為偏置項;為n個氨基酸的預測值;Softmax函數將網絡的輸出歸一化為兩個預測類別的概率分布;
對訓練數據采用五折交叉驗證方法,即訓練數據被隨機劃分為五折,每次使用其中的四折訓練深層圖卷積神經網絡,并利用最后一折評估深層圖卷積神經網絡的性能;
重復5次,并計算五折的平均性能,以此來優化特征組合和超參數選擇;
設置其中λ為超參數;
采用8層的圖卷積神經網絡,網絡隱含單元維度為256;α設置為0.7;λ設置為1.5;將蛋白距離圖轉換成離散鄰接矩陣的距離閾值設置為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110502536.3/1.html,轉載請聲明來源鉆瓜專利網。





