[發明專利]一種基于蛋白質家族聚類的PPI知識圖譜表示學習方法在審
| 申請號: | 202010962948.0 | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112131402A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 劉容愷 | 申請(專利權)人: | 劉容愷 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06K9/62;G06N3/08;G16B50/10;G16B50/30 |
| 代理公司: | 北京華際知識產權代理有限公司 11676 | 代理人: | 褚慶森 |
| 地址: | 261000 山東省濰坊市奎文區文化*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蛋白質 家族 ppi 知識 圖譜 表示 學習方法 | ||
1.一種基于蛋白質家族聚類的PPI知識圖譜表示學習方法,其特征在于,通過以下步驟來實現:
a).PPI知識圖譜中實體分類,PPI知識圖譜中只包含了蛋白質和蛋白質之間的相互作用關系,而并沒有包含蛋白質家族實體;將蛋白質家族實體添加到PPI知識圖譜中,并建立起蛋白質家族與同源蛋白之間的關聯,并按照的蛋白質家族及與它關聯的同源蛋白構建不同的聚類簇,并建立起不在聚類簇中的獨立蛋白的集合;
b).預表示學習,對整個圖譜進行一次預表示學習訓練,輸出各個實體的向量化表示,以獲得子類實體和父類實體在向量空間中的初步表示,作為計算距離的基礎;
c).構建子父類損失函數,子父類損失函數,旨在度量在向量空間中,表征各個子類實體向父類實體的靠攏程度,同時也表征各個子類實體的聚集程度;故將子父類損失函數的計算方法分為子類實體到父類實體距離誤差平方和的計算和歸一化處理;
c-1).距離誤差平方和的計算,設所有父類的集合為F,距離誤差平方和為E,通過公式(1)計算子類實體到父類實體距離誤差平方和:
其中,fi表示父類集合F中第i個父類實體,p表示fi下的每個子類實體;公式(1)首先計算某個父類實體對應的每個子類實體到該父類實體在向量空間中的距離誤差的平方和,之后再將各個父類實體所計算出的距離誤差平方和進行累加,形成整個圖譜領域的子父類距離誤差平方和;
c-2).距離誤差平方和的歸一化處理,使用min-max標準化來進行歸一化處理,因為是平方和的累加,所以將最小值min設置為0,對于最大值,使用預表示學習后第一次求得的距離誤差平方和的1.2倍作為最大值max;取得min-max的最大、最小值取值范圍后,將距離誤差平方和應用min-max標準化方法歸一化到[0,1]區間;
d).進行總體訓練,對于一次訓練,需要對公式(1)求取的子父類損失函數和通用損失函數同時進行訓練,擇將兩個損失函數進行相加,在反向傳播階段進行一次統一的更新,從而同時使用兩個損失訓練更新蛋白質相互作用網絡圖譜;其包括通用模型訓練和基于子父類損失函數的訓練;
d-1).通用模型的訓練,通用模型的選取是任意的,根據應用場景選擇一種合適的表示學習模型,通用模型的選取規則為:當知識圖譜規模適中時,使用GCN或GraphSage訓練模型,其中,當知識圖譜較為穩定、只在特定時間進行集中的增量更新時選擇GCN,當知識圖譜需要經常添加或刪除實體時,為了滿足快速表示新實體的需求使用GraphSage模型;當知識圖譜規模較大時,使用PBG來進行大規模、多線程、分布式的訓練;
d-2).基于子父類損失函數的訓練,其分為兩種情況:一是子父類實體所構成的聚類簇的損失計算;二是獨立于聚類簇外的獨立節點的損失計算,利用公式(1)進行子父類損失函數的計算;對于獨立于聚類簇外的獨立節點,因為在現有的圖譜結構中無法找到其明確的子父類關系,故在訓練過程中不對其進行子父類損失函數的計算,即始終將它的子父類損失函數設置為0;
e).通過步驟d)多次訓練,要同時對子父類損失函數和普通損失函數兩個損失函數進行訓練,使其雙雙收斂;在完成整體的訓練,并獲得各個實體在向量空間中的表示之后,將額外引入的蛋白質家族實體和子父類關系從PPI知識圖譜和向量空間中去除,獲得只包含蛋白質實體的純粹的PPI向量空間。
2.根據權利要求1所述的基于蛋白質家族聚類的PPI知識圖譜表示學習方法,其特征在于:步驟b)中所述的預表示學習過程中,當圖譜規模較小時,選擇參數最少、速度最快、開銷最低的TransE作為預訓練模型,并將訓練出的向量表示作為整體模型的輸入;向量空間的維度選取為300到500維;使用TransE訓練模型中OpenKE預制的Trans系列模型直接進行訓練;當圖譜規模較大時,使用FaceBook Pytorch BigGraph進行整體圖譜的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉容愷,未經劉容愷許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010962948.0/1.html,轉載請聲明來源鉆瓜專利網。





