[發明專利]一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法有效
| 申請號: | 202011226195.3 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112308326B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 彭紹亮;王小奇;李非;辛彬;肖霞;王紅;張興龍 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F40/30;G06N3/08;G16B20/00;G16B30/10 |
| 代理公司: | 國防科技大學專利服務中心 43202 | 代理人: | 王文惠 |
| 地址: | 410012 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 路徑 雙向 編碼器 生物 網絡 鏈接 預測 方法 | ||
1.一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法,其特征在于,包括以下步驟:
1)參數初始化,包括:網絡序列長度l,節點讀書的閾值deg,表征向量維度dim,Transformer編碼器的層數n,語言模型的掩碼序列比率k∈(0,1),掩碼序列被特殊字符[MASK]替換的概率p∈(0,1),掩碼序列被語義文本中其他序列替換的概率p′∈(0,1-p);
2)構建藥物信息網絡和元路徑,通過以下步驟實現:
2.1)通過DrugBank、UniProt、HPRD、SIDER、CTD、NDFRT和STRING公開數據庫構建包含藥物、靶標、疾病和副作用4種節點類型、7種邊緣的藥物信息網絡,并且刪除度小于的節點,所述7種邊緣包括藥物-藥物相互作用,藥物-蛋白相互作用,藥物-疾病關聯關系,藥物-副作用關聯關系,蛋白-疾病關聯關系,藥物-藥物結構相似度,蛋白-蛋白序列相似性;
2.2)根據不同的生物通路、藥物機理構建23種元路徑,分別為:藥物-蛋白,藥物-蛋白-藥物,藥物-蛋白-蛋白,藥物-蛋白-疾病,藥物-蛋白-蛋白-藥物,藥物-蛋白-蛋白-疾病,藥物-蛋白-藥物-蛋白,藥物-蛋白-藥物-疾病,藥物-蛋白-藥物-副作用,藥物-蛋白-疾病-蛋白,藥物-蛋白-疾病-藥物,蛋白-藥物-藥物,蛋白-藥物-蛋白,蛋白-藥物-疾病,蛋白-藥物-副作用,蛋白-藥物-藥物-蛋白,蛋白-藥物-藥物-疾病,蛋白-藥物-藥物-副作用,蛋白-藥物-蛋白-蛋白,蛋白-藥物-蛋白-疾病,蛋白-藥物-疾病-蛋白,蛋白-藥物-疾病-藥物,蛋白-藥物-副作用-藥物;
3)對網絡中的所有節點進行編號xi∈{xi|i=1,2,...,num},其中num代表節點的總個數,并對每個節點xi∈{xi|i=1,2,...,num}根據所述步驟2)的元路徑依次進行采樣;
4)將所有的語義序列輸入深層雙向Transformer編碼器進行表征學習,獲得節點的低維表征向量,其中每層的Transformer模型都包含同樣的多頭自注意力機制和全連接網絡;
5)判斷是否達到最大的訓練次數,如果達到最大迭代次數,則輸出每個節點的表征向量轉至步驟6),否則轉至步驟4);
6)利用歸納矩陣補全方法進行疾病-蛋白關聯預測,通過以下步驟實現:
6.1)計算網絡中疾病-蛋白相互關聯的個數Ninter,并從疾病-蛋白關聯網絡中隨機選擇同樣數量的Ninter個負樣本,將這些正樣本和負樣本混合在一起,進行10-折交叉驗證;
6.2)基于歸納矩陣補全模型重構異構網絡,并且剔除測試集的網絡關聯信息,具體操作為:通過公式將節點鏈接預測轉換成優化問題,其中r是7種網絡邊緣的類型,Pr是7種單網絡的鄰接矩陣,Zr是要求解的單網絡對應的低秩矩陣,Vu和Vw是單網絡中節點的特征向量;所述7種網絡邊緣的類型包括:藥物-藥物相互作用,藥物-蛋白相互作用,藥物-疾病關聯關系,藥物-副作用關聯關系,蛋白-疾病關聯關系,藥物-藥物結構相似度,蛋白-蛋白序列相似性;
6.3)基于訓練的疾病-蛋白關聯關系對應的低秩矩陣,計算測試集中的疾病-靶標關聯關系得分;
7)與步驟6)中疾病-蛋白關聯預測相同,利用歸納矩陣補全方法預測靶標-藥物相互作用;
8)與步驟6)中疾病-蛋白關聯預測相同,利用歸納矩陣補全方法預測藥物-副作用關聯關系。
2.如權利要求1所述的一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法,其特征在于,所述步驟4)通過以下步驟實現:
4.1)對所有的語義序列進行分詞,包括去除特殊字符和多余字符、空格分詞過程,最后采用掩碼語言模型對語義序列進行處理,從所有的語義序列中按掩碼比率k隨機選取掩碼序列,針對每個掩碼序列,生成一個隨機數rand∈[0,1],如果rand<p,則該序列被替換為[MASK],其中p∈(0,1)為掩碼序列被[MASK]替換的概率;如果p≤rand<p+p′,則從語義序列中隨機選則一個序列用來替換該掩碼序列,其中p′∈(0,1-p)是掩碼序列被其他序列替換的概率;如果p+p′≤rand<1,則該掩碼序列保持不變;
4.2)將每個節點的初始表征向量和位置向量進行疊加記為并輸入多頭注意力機制學習得到向量并利用殘差連接和歸一化處理得到其次,利用全連接前饋網絡進一步學習,全連接前饋網絡也進行殘差連接和歸一化操作;最終得到節點的低維表征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011226195.3/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





