[發明專利]一種基于圖卷積神經網絡的蛋白質自相互作用預測方法在審
| 申請號: | 202010638359.7 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111863121A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 王磊;閆欣 | 申請(專利權)人: | 棗莊學院 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B40/00 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 李桂存 |
| 地址: | 277132 *** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖卷 神經網絡 蛋白質 相互作用 預測 方法 | ||
本發明提供一種新型的蛋白質自相互作用預測方法,涉及機器學習和生物信息學領域。具體的:通過現有的數據庫篩選出蛋白質的序列等信息,并進行預處理;使用位置特異性評分矩陣的構建,將蛋白質信息轉化為PSSM矩陣(N*20);再利用深度學習的圖卷積神經網絡算法,提取去蛋白質的高有效特征信息,極大的降低了數據維度;最后采用隨機森林算法,對蛋白質自相互作用進行預測。本發明提供的方法能有效解決單一分類器計算量大,預測結果不準確的問題,將高維數據降維,并提取有效特征信息,同時保證最終預測準確。
技術領域
本發明涉及機器學習和生物信息學領域,具體涉及一種新型的蛋白質自相互作用預測方法。
背景技術
蛋白質是生物體的基本構件,幾乎參與細胞內所有的生物過程。探索蛋白質的結構與功能,對于理解生命活動、疾病治療以及新藥研發具有重要意義。研究表明,蛋白質通常不單獨執行功能,而是通過與其他蛋白質的相互作用來共同完成一個特定的功能。隨著質譜分析、酵母雙雜交、蛋白質芯片技術以及染色體免疫共沉淀等高通量生物技術的快速發展,使得蛋白質相互作用數據大量累積。如何從海量蛋白質相互作用數據中挖掘其中隱藏的生物學知識,揭示生命過程所涉及的反應通路、調控機制以及分子組成等問題正面臨新的挑戰。
在蛋白質相互作用中,蛋白質與自身發生相互作用(SIP)占據重要位置。證據表明蛋白質自相互作用在包括酶激活、基因表達調控、信號轉導和免疫應答等重要生物學過程中發揮關鍵作用。例如,Pereira-Leal等人通過對大規模生物蛋白質復合物起源和進化分析發現,許多蛋白質復合物的進化最初是由自身的相互作用建立起來的。Ispolatov等人發現蛋白質相互作用網絡中存在大量的自相互作用蛋白質,其在細胞系統中發揮重要作用。此外,自相互作用蛋白質能夠在不增加基因組大小的情況下,通過自身的相互作用來調節蛋白質功能,從而擴展它們的功能多樣性。
發明內容
本發明提供一種新型的基于圖卷積神經網絡的蛋白質自相互作用預測的方法。
一種基于圖卷積神經網絡的蛋白質自相互作用預測的方法,包括以下步驟:
a、數據集的選擇與建立:利用收集自UniProt、InnateDB、BioGRID、DIP和MatrixDB數據庫的蛋白質序列數據構建預測蛋白質自相互作用的數據集;
b、位置特異性評分矩陣,PSSM矩陣的構建;
c、圖卷積神經網絡的構建:利用深度學習的圖卷積神經網絡算法,將圖卷積解釋為概率度下嵌入函數的積分變換,通過逐層抽取的方式,將復雜的蛋白質進化信息數據轉換為一系列簡單的高級特征;
d、分類器模型的構建:利用隨機森林算法,通過創建多個決策樹的子分類器,并以集成的方式構建分類器模型。
其中,所述的步驟a,對得到的數據集需經過以下處理:
(1)從人類蛋白質組中刪除長度大于5000或小于50個殘基的蛋白質序列;
(2)被選擇作為陽性樣本的蛋白質數據至少滿足以下條件之一:A.在UniProt中,蛋白質被定義為同寡聚體;B.至少有兩篇已發表的文章報道過它們;C.至少通過兩種大規模或一種小規模實驗驗證;
(3)陰性數據集中去除了所有已知的自相互作用蛋白質。
其中,所述的PSSM矩陣為,將蛋白質序列轉化為N*20的矩陣,其中N代表蛋白質的殘基數,20代表為20個氨基酸種類,通過使用BLAST的位置特異性PSIBLAST將每個蛋白質都轉換成PSSM矩陣。
其中,所述的步驟c為利用圖卷積神經網絡提取蛋白質自相互作用拓撲圖的空間特征,其具體步驟為:
(1)從拓撲圖中選擇一個固定長度的節點序列;
(2)對序列中的每個節點,收集固定大小的鄰域集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于棗莊學院,未經棗莊學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010638359.7/2.html,轉載請聲明來源鉆瓜專利網。





