[發明專利]一種基于蛋白質家族聚類的PPI知識圖譜表示學習方法在審
| 申請號: | 202010962948.0 | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112131402A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉容愷 | 申請(專利權)人: | 劉容愷 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06K9/62;G06N3/08;G16B50/10;G16B50/30 |
| 代理公司: | 北京華際知識產權代理有限公司 11676 | 代理人: | 褚慶森 |
| 地址: | 261000 山東省濰坊市奎文區文化*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蛋白質 家族 ppi 知識 圖譜 表示 學習方法 | ||
本發明的基于蛋白質家族聚類的PPI知識圖譜表示學習方法,通過以下步驟來實現:a).PPI知識圖譜中實體分類;b).預表示學習;c).構建子父類損失函數;c?1).距離誤差平方和的計算;c?2).距離誤差平方和的歸一化處理;d).進行總體訓練;d?1).通用模型的訓練;d?2).基于子父類損失函數的訓練;e).通過步驟d)多次訓練。本發明的PPI知識圖譜表示學習方法,將基于子父類損失函數的表示學習模型應用于蛋白質相互作用知識圖譜,通過同源蛋白和蛋白質家族的子父類關系進行表示學習訓練,在蛋白質功能和互作用推理中具有更好的準確率、可靠性和可解釋性。
技術領域
本發明涉及一種PPI知識圖譜表示學習方法,更具體的說,尤其涉及一種的基于蛋白質家族聚類的PPI知識圖譜表示學習方法。
背景技術
蛋白質-蛋白質相互作用(Protein-Protein Interaction,PPI)是生物分子網絡中的基本組成元件,也是生物活動的主要表層表征形式,是細胞活性和功能的最終執行者,在生物研究、病理分析、藥物研發方面具有重要的意義。蛋白質直接決定了生物體的組成與修復、生物體的生理機能調節、載體運輸和能量調節,參與了如遺傳、發育、繁殖、代謝、應激等幾乎所有的生物活動。對蛋白質結構和功能的深入研究,揭示生物體內成千上萬種蛋白質的具體功能及實施功能的機制,一直是后基因組時代蛋白質研究的核心內容,研究意義與挑戰并存。
部分蛋白質可以獨立的發揮生物功能,但大多數蛋白質卻需要與其伴侶蛋白結合,共同完成一項或多項復雜的生理功能。多數蛋白,往往都可以與幾種蛋白相互作用,實現不同的功能;而少數關鍵性的蛋白,則存在大量的伴侶蛋白,這些關鍵蛋白也往往在細胞活性和功能中扮演著及其重要的作用。不同蛋白作為實體,蛋白之間的相互作用作為關系,將相關知識以屬性的形式存儲于實體和關系中,相互交織形成一個巨大的圖譜,并支持查詢、推理、智能分析等功能,該圖譜就被稱為“蛋白質相互作用知識圖譜(Protein-ProteinInteraction Knowledge Graph,PPI KG)”。如何構建海量且復雜的蛋白質相互作用知識圖譜及如何通過PPI KG,有效揭示蛋白質之間復雜的物理、生物化學、信號傳導、基因網絡作用規律,發現蛋白質之間尚未發現的隱含作用關系,對新蛋白的結構和功能做出有效預測,是生物醫藥領域知識圖譜研究的重要方向。而隨著傳統蛋白結構研究、序列研究和網絡拓撲研究潛力的逐漸透支和知識圖譜理論和應用的不斷完善,應用知識圖譜作為蛋白質相互作用關系和知識的承載載體,在此基礎上從表層知識的分析過度到底層潛在知識的挖掘,是蛋白組學研究心得突破點。其中又以表示學習的方法將圖譜中的實體和關系向量化加以應用,應用最為廣泛、發展最為迅速。而如何將PPI KG進行有效的表示學習,將圖譜中的實體和關系正確高效的映射到統一的向量空間中,從而將語義和領域層面上的實際問題轉化為在向量空間中的向量運算,是應用表示學習在PPI KG上對蛋白質的功能、性質、互作用關系進行推理和挖掘的基礎。
表示學習的根本目的是通過某種模型或方法,將圖譜中的實體和關系轉化為統一的某一維度的向量表示,使得圖譜中的三元組滿足關系h+r≈t(h 為頭實體向量,r為關系向量,t為尾實體向量),如圖1所示。表示學習方法已經經歷了長久的發展,方法也不斷推陳出新。其中,最有代表性的是 Trans系列。該系列最早的模型TransE是2013年由Bordes等人在NIPS上發表,并定義了三元組中的距離公式作為損失函數。但TransE無法解決多對多、多類型等問題,這些問題后來分別被TransH、TransR等模型解決,并結合路徑等更高層的語義信息產生PTransE等模型。
另一方面,為了適應大數據環境下的超大規模知識圖譜和海量實體、關系的表示學習,Facebook基于Pytorch推出了Pytorch BigGraph(PBG) 表示學習模型,實現了理論上不限規模圖譜的表示學習。此外,隨著GNN 的發展,基于圖神經網絡的表示學習成為了新興的技術,收到了廣泛的關注。
發明內容
本發明為了克服上述技術問題的缺點,提供了一種基于蛋白質家族聚類的PPI知識圖譜表示學習方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉容愷,未經劉容愷許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010962948.0/2.html,轉載請聲明來源鉆瓜專利網。





