[發明專利]一種用于DTA預測的多模態信息融合模型及方法在審
| 申請號: | 202310188140.5 | 申請日: | 2023-03-02 |
| 公開(公告)號: | CN116206688A | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 歐陽純萍;劉永彬;張琳琳;萬亞平;田紋龍;余穎 | 申請(專利權)人: | 南華大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B15/30;G06N3/0455;G06N3/0464;G06N3/08;G06N3/048;G06N3/047 |
| 代理公司: | 長沙新裕知識產權代理有限公司 43210 | 代理人: | 顏田慶 |
| 地址: | 421001 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 dta 預測 多模態 信息 融合 模型 方法 | ||
本發明提供了一種用于DTA預測的多模態信息融合模型及方法,該模型包括藥物分子結構信息編碼器、靶標結構信息編碼器、多模態平衡模塊和藥物靶標融合模塊;藥物分子結構信息編碼器使用Transformer模型對藥物字符串模態信息進行編碼,并使用GIN模型提取藥物圖模態信息特征;靶標結構信息編碼器使用Transformer模型對靶標字符串模態信息進行編碼,并使用GCN模型提取藥物圖模態信息特征;多模態平衡模塊使用對比學習的方法將藥物字符串和圖模態信息進行平衡與整合,以及將靶標字符串和圖模態信息進行平衡與整合;藥物靶標融合模塊將多模態平衡模塊得到的藥物和靶標的兩種模態特征連接起來,用于DTA預測。
技術領域
本發明涉及藥物靶標結合親和力預測技術領域,尤其指一種用于DTA預測的多模態信息融合模型及方法。
背景技術
藥物發現是發現潛在新型藥物的過程,涉及了藥理學、化學、生物學等多種領域,通常需要耗費巨大的經濟成本與時間成本。據統計,開發一種新藥需要花費約26億美元,而得到FDA的批準需要17年時間。多年來,隨著計算機技術的發展,計算機輔助藥物發現已成為一種趨勢,所以迫切地需要開發出一種計算模型推進藥物發現的進程。其中,成功識別藥物-靶標相互作用是藥物發現的關鍵步驟,而能進一步準確識別藥物-靶標相互作用關系的親和力對藥物研發則更為重要。DTA代表了藥物分子與靶標結合的強弱關系,一般來說,化合物分子與靶標結合越強,該化合物就越有可能影響靶標的生物學功能,也更有可能是一種合適的候選藥物。因此,建立計算模型準確預測DTA可以加速藥物分子的篩選過程,最大限度地減少不必要的體外篩選實驗,對藥物研發具有重要的意義。
目前已經提出了許多用于DTA預測的計算方法和模型,例如:傳統的分子對接技術,其基于目標和化合物分子的3D結構,通過計算機模擬預測藥物和靶標的結合模式和結合親和力。許多成熟的分子對接算法是作為軟件開發的,例如Gold和Dock,這些分子對接技術非常耗時。隨著計算機技術的發展,出現了分子動力學模擬技術,如Elanie等人將快速幾何對接算法與分子力學相互作用能量評估相結合,計算每個配體原子的潛力進行評分,更加靈活,預測結果更加準確,但代價是昂貴的計算和時間成本。
大多數早期的機器學習方法是基于通過結構相似性計算進行預測的矩陣計算,這大大降低了成本。例如,He等人提出了一種稱為SimBoost的方法,該方法預測化合物和蛋白質結合親和力的連續值。Li等提出了一種基于隨機森林的分子對接方法,該方法通過應用Kronecker相似矩陣乘積進行預測。然而,這些方法過分依賴于分子的結構數據特征,并且獲取這些數據既困難又費時。隨著深度學習和大數據時代的飛速發展,卷積神經網絡(CNN)、圖神經網絡(GNNs)以及它們的變體被應用于藥物發現領域。由于藥物和靶標的結構信息在DTA預測中起著極為關鍵的作用,因此現有的DTA預測方法大多基于藥物和靶標的結構信息,它們可以分為基于字符串模態和基于圖模態的方法。
基于字符串模態的方法是從序列數據中學習特征。例如,DeepDTA使用CNN對靶標序列和藥物SMILES的一維表示進行特征提取。WideDTA在此基礎上計算補充了蛋白質結構域、基序和最大共同亞結構詞信息,并引入了一種基于詞的序列表示法來進行DTA預測。相比之下,AttentionDTA則更加關注藥物和靶標序列中重要的關鍵子序列,并引入了了一種雙側多頭注意機制,以預測DTA。這些方法都只關注了藥物SMILES和靶標信息的字符串模態,并且這種模態的信息忽略了空間結構以及氫原子信息。此外,在嵌入過程中只考慮了字符串的固定長度,這將導致一些有用信息的丟失。為了解決這一弊端,基于圖模態的方法應運而生。GraphDTA提出將藥物分子結構信息表示為圖,并使用GNNs對藥物分子圖進行特征提取,使用CNN對靶標序列進行特征提取。DGraphDTA利用藥物分子圖和靶結構圖進行DTA預測,通過圖形卷積神經網絡模型(GCN)進行特征提取。然而,藥物分子圖又缺失了字符串的上下文語義信息和原子的位置排列。并且該方法中靶標結構圖只考慮了靶標的空間結構,而沒有考慮靶標殘基的排列順序,忽略了肽鏈殘基的位置信息。因此,有必要系統地考慮藥物和靶標結構的多模態信息,以獲得更好地預測DTA的完整信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南華大學,未經南華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310188140.5/2.html,轉載請聲明來源鉆瓜專利網。





