[發明專利]一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法有效
| 申請號: | 202011226195.3 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112308326B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 彭紹亮;王小奇;李非;辛彬;肖霞;王紅;張興龍 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F40/30;G06N3/08;G16B20/00;G16B30/10 |
| 代理公司: | 國防科技大學專利服務中心 43202 | 代理人: | 王文惠 |
| 地址: | 410012 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 路徑 雙向 編碼器 生物 網絡 鏈接 預測 方法 | ||
本發明屬于計算機科學領域,公開了一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法。首選構建了多源異構的藥物信息網絡,同時設計多種語義路徑進行序列采樣,構成大規模的語義信息庫;其次,將深度Transformer編碼器與掩碼語言模型(masked language model)有機融合設計出深度雙向的編碼表征模型有效地提取每個節點的低緯表征向量;最后,利用歸納矩陣補全(Inductive matrix completion)技術進行疾病?蛋白關聯關系、蛋白?藥物相互作用、藥物?副作用關聯關系等生物鏈接預測,進而完成從疾病—靶標—藥物—副作用的藥物研發技術體系。
技術領域
本發明屬于計算機科學領域,涉及人工智能技術應用,具體涉及一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法。
背景技術
針對一組生物醫學實體及其已知的相互作用,旨在預測實體之間的其他潛在相互作用(鏈接)是生物醫學領域最重要的任務之一,因此,越來越多的研究者利用計算機技術來預測各種生物醫學網絡中的潛在相互作用。
在生物醫學領域的傳統方法已經投入大量精力來開發生物學相關的特征,例如,化學亞結構,基因本體論(gene ontology)和拓撲結構相似性。與此同時,有監督的學習方法和半監督圖的推理模型被用來預測潛在的相互作用。這些方法主要基于相似性假設,即具有相似生物特征或結構特征的實體可能具有相似的聯系。但是,基于生物學特征的預測方法通常會面臨兩個問題:(1)生物學特征提取過程成本很高,甚至有些生物特征很難獲得,盡管可以通過預處理刪除那些沒有特征的生物實體,但這通常會導致數據集規模較小,丟失重要的信息,因此在實際應用中并不實用;(2)生物學特征以可能不夠精確,無法代表生物醫學實體,并且可能無法建立穩定準確的模型。
試圖自動學習網絡節點的低緯向量的網絡表征方法有望解決上述兩個問題,并且被廣泛應用于生物鏈路預測中。例如,基于矩陣分解的技術被用于藥物-疾病關聯的預測;一些研究者提出了流形正則化的矩陣分解技術,通過合并了拉普拉斯正則化以學習更好的藥物表示,進而提高藥物-藥物相互作用的預測,除之之外,也有人提出一些基于隨機游走的網絡表征方法和基于深度神經網絡的表征方法。但是現有方法只關注網絡的節點之間的結構特征,而忽略了網絡實體之間的語義信息;或者只能捕獲較短的結構和元路徑,無法深度挖掘網絡節點之間的結構和語義關系。
發明內容
為了克服上述技術的不足,本發明提供了一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法。首選構建了多源異構的藥物信息網絡,同時設計多種元路徑進行序列采樣,構成大規模的語義信息庫;其次,將深度Transformer編碼器與掩碼語言模型(maskedlanguage model)有機融合設計出深度雙向的編碼表征模型有效地提取每個節點的低緯表征向量;最后,利用歸納矩陣補全(Inductive matrix completion)技術進行疾病-蛋白關聯關系、蛋白-藥物相互作用、藥物-副作用關聯關系等生物鏈接預測,進而完成從疾病—靶標—藥物—副作用的藥物研發技術體系。
本發明所采用的技術方案是:
一種基于元路徑和雙向編碼器的生物網絡鏈接預測方法,包括如下步驟:
1)參數初始化,包括:網絡序列長度l,節點讀書的閾值deg,表征向量維度dim,Transformer編碼器的層數n,語言模型的掩碼序列比率k∈(0,1),掩碼序列被特殊字符[MASK]替換的概率p∈(0,1),掩碼序列被語義文本中其他序列替換的概率p′∈(0,1-p);
2)構建藥物信息網絡和元路徑;
3)對網絡中的所有節點進行編號xi∈{xi|i=1,2,...,num},其中num代表節點的總個數,并對每個節點xi∈{xi|i=1,2,...,num}根據所述步驟2)的元路徑依次進行采樣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011226195.3/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





