[發明專利]一種基于圖表示學習的關鍵蛋白質識別方法和裝置在審
| 申請號: | 202210182217.3 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114664377A | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 楊合;朱媛 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G16B25/10 | 分類號: | G16B25/10;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖表 學習 關鍵 蛋白質 識別 方法 裝置 | ||
本發明提供了一種基于圖表示學習的關鍵蛋白質識別方法和裝置,方法包括:從數據庫中篩選關鍵蛋白質作為標簽,標記提取的蛋白質相互作用網絡數據中的蛋白質節點,獲得帶節點標簽的蛋白質相互作用網絡;使用DeepWalk算法對蛋白質相互作用網絡數據進行圖表示學習,獲得圖表示矩陣數據;將帶節點標簽的蛋白質相互作用網絡、從蛋白質節點的同源生物信息中提取的蛋白質節點屬性特征以及圖表示矩陣數據輸入圖卷積神經網絡模型進行迭代訓練;利用訓練好的圖卷積神經網絡模型識別待測蛋白質網絡中的關鍵蛋白質節點。本發明可以直接使用圖類型數據進行訓練,避免了現有方法中數據轉換所需要的繁瑣工作,進一步使得訓練得到的結果更加準確。
技術領域
本發明涉及生物信息學技術領域,具體涉及一種基于圖表示學習的關鍵蛋白質識別方法和裝置。
背景技術
蛋白質是構成細胞和組織結構不可或缺的成分之一,參與生物體內的營養運輸、信號識別與傳遞、免疫應答和生化反應等各種重要的生命活動。研究表明,生物體內的各種生命活動是通過蛋白質相互之間進行協作來完成的,且不同類型的蛋白質在生物體中扮演著不同的角色、具有不同的功能,因此蛋白質對生物體的重要程度也不盡相同。其中,那些缺失后會導致生物體發生病變甚至死亡的蛋白質被稱為關鍵蛋白質(essentialprotein),其他的則被稱為非關鍵蛋白質(non-essential protein)。現有的研究表明,關鍵蛋白質所表現出的重要性在很多方面都有體現:例如,在生物進化過程中,關鍵蛋白質相對于非關鍵蛋白質更加保守,不易發生變化;在生命活動中,關鍵蛋白質相對于非關鍵蛋白質參與了更多的生物進程。識別出關鍵蛋白質對于我們了解細胞的生命活動過程,研究生物進化的相關機制,以及根據致病基因或致病蛋白進行藥物設計、藥物標靶和疾病治療有著重要的現實意義。
在生物學領域,識別關鍵蛋白質常用是基于生物醫學實驗的方法,例如,RNA干擾、條件性基因剔除和單基因敲除等。基于生物醫學實驗的方法雖然準確,但是成本高、效率低,還與實驗人員的操作技術密切相關,這類方法無法應對大量的蛋白質數據。隨著高通量技術和蛋白質組學的發展,大量的蛋白質相互作用數據庫已經建立,這些數據庫包括有:蛋白質相互作用數據庫(Databae of Interaction Proteins,DIP)、Munich蛋白質序列信息中心(Munich Information Center for Protein Sequences,MIPS)、生物分子相互作用網絡數據(Biomolecular Interaction Network Database,BIND)、交互數據的通用存儲庫(General Repository for Interaction Data,GRID)、檢索相互作用基因的工具數據庫(Search Tool for the Retrieval of Interacting Genes,STRING)、酵母蛋白數據庫(Yeast Protein Database,YPD)、人類蛋白相互作用數據庫(Human Protein InteractionDatabase,HPID),利用這些數據庫中的各種生物信息數據,使得結合計算的方法來識別關鍵蛋白質成為一種可能。在關鍵蛋白質識別中,利用最多的蛋白質相互作用網絡(protein-protein interaction network,PPIN),不過單一的PPIN含有大量的假陽性和假陰性數據,對關鍵蛋白質的識別精度有很嚴重的不利影響。
發明內容
本發明為了提高關鍵蛋白質識別的準確率,提供一種基于圖表示學習的關鍵蛋白質識別方法和裝置。
本發明提供的一種基于圖表示學習的關鍵蛋白質識別方法,包括:
從數據庫中篩選關鍵蛋白質作為標簽,標記提取的蛋白質相互作用網絡數據中的蛋白質節點,獲得帶節點標簽的蛋白質相互作用網絡;
使用DeepWalk算法對所述蛋白質相互作用網絡數據進行圖表示學習,獲得圖表示矩陣數據;
將所述帶節點標簽的蛋白質相互作用網絡、從蛋白質節點的同源生物信息中提取的蛋白質節點屬性特征以及所述圖表示矩陣數據輸入圖卷積神經網絡模型進行迭代訓練;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210182217.3/2.html,轉載請聲明來源鉆瓜專利網。





