[發(fā)明專利]基于門控注意力機(jī)制的靶標(biāo)-配體結(jié)合親和力的深度學(xué)習(xí)預(yù)測方法在審
| 申請?zhí)枺?/td> | 202210394865.5 | 申請日: | 2022-04-15 |
| 公開(公告)號: | CN114743600A | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計)人: | 劉奇磊;都健;趙雨靚;張磊;吳心遠(yuǎn);孟慶偉 | 申請(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B5/00;G16B15/00;G16B50/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 遼寧鴻文知識產(chǎn)權(quán)代理有限公司 21102 | 代理人: | 王海波 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 門控 注意力 機(jī)制 靶標(biāo) 結(jié)合 親和力 深度 學(xué)習(xí) 預(yù)測 方法 | ||
本發(fā)明涉及基于門控注意力機(jī)制的靶標(biāo)?配體結(jié)合親和力的深度學(xué)習(xí)預(yù)測方法,屬于計算機(jī)輔助藥物設(shè)計技術(shù)以及生物和藥物信息學(xué)領(lǐng)域。深度學(xué)習(xí)模型從配體的SMILES字符串和蛋白質(zhì)的氨基酸序列開始,然后分別轉(zhuǎn)換為配體矩陣和蛋白質(zhì)矩陣。配體矩陣被送到全連接層和基于門增強(qiáng)的注意力層用于特征提取,將蛋白質(zhì)矩陣送到一維卷積層和最大池化層,然后再送入基于門增強(qiáng)的注意力層。最后,通過矩陣行的加和來聚合配體矩陣的處理特征,并對蛋白質(zhì)矩陣執(zhí)行相同的過程,然后將兩者拼接在一起送入后續(xù)的全連接層以預(yù)測蛋白質(zhì)?配體復(fù)合物的高/低結(jié)合親和力的概率。本發(fā)明有效減少與實驗分析相關(guān)的時間和成本,提高藥物設(shè)計和虛擬篩選的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)輔助藥物設(shè)計技術(shù)以及生物和藥物信息學(xué)領(lǐng)域,尤其涉及一種靶標(biāo)-配體結(jié)合親和力預(yù)測方法。
背景技術(shù)
大多數(shù)生物過程由生物分子識別決定,其中蛋白質(zhì)通常作為靶標(biāo)與配體相互作用以調(diào)節(jié)生物功能,例如酶催化,信號轉(zhuǎn)導(dǎo)等。靶標(biāo)-配體相互作用的研究是重要的課題。靶標(biāo)-配體相互作用的結(jié)合強(qiáng)度(以實數(shù)衡量)的數(shù)量通常定義為結(jié)合親和力,可以通過抑制常數(shù)Ki、解離常數(shù)Kd和半數(shù)最大抑制濃度IC50來量化。現(xiàn)有藥物大部分都是具有生物活性的小分子化合物,識別與靶蛋白具有高親和力的配體(小分子候選藥物)是藥物發(fā)現(xiàn)早期的一項主要任務(wù)。
實驗試錯方法確定靶標(biāo)-配體的親和力存在耗時費力的問題?;诎虢?jīng)驗的3D-定量構(gòu)效關(guān)系模型雖預(yù)測靶標(biāo)-配體親和力的準(zhǔn)確度高,且解釋性強(qiáng),但其通用性差,僅適用于某一類骨架的分子?;谖锢眚?qū)動的方法(如分子動力學(xué)方法)具有較高的準(zhǔn)確性和良好的解釋性,然而巨大的計算時間成本阻礙了其在高通量篩選中的應(yīng)用。相比于分子動力學(xué)方法,分子對接方法可大幅降低計算時間成本,但也犧牲了較多精度?;跀?shù)據(jù)驅(qū)動的方法(如機(jī)器學(xué)習(xí)方法)計算速度極快,然而大多數(shù)機(jī)器學(xué)習(xí)算法仍依賴專家知識進(jìn)行特征提取/選擇,在大數(shù)據(jù)集中難以權(quán)衡準(zhǔn)確性和通用性。在海量數(shù)據(jù)和強(qiáng)大的并行計算能力推動下,由傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)一步發(fā)展得到的深度學(xué)習(xí)方法具有更強(qiáng)的數(shù)據(jù)擬合能力,盡管目前已提出了許多深度學(xué)習(xí)模型來預(yù)測結(jié)合親和力,但大多數(shù)需要靶標(biāo)-配體復(fù)合物的3D結(jié)構(gòu)特征,與文本特征相比,3D結(jié)構(gòu)特征不容易獲得。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的上述問題,本發(fā)明的目的是充分利用文本特征的優(yōu)勢,開發(fā)一種端到端的基于門控注意力機(jī)制的深度學(xué)習(xí)模型,以快速識別具有高結(jié)合親和力的靶標(biāo)-配體復(fù)合物。
為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案,包括以下具體步驟:
基于門控注意力機(jī)制的靶標(biāo)-配體結(jié)合親和力的深度學(xué)習(xí)預(yù)測方法,包括以下具體步驟:
步驟1:建立結(jié)合親和力數(shù)據(jù)庫,用于后續(xù)的深度學(xué)習(xí)模型。
步驟2:將配體的SMILES字符串轉(zhuǎn)換為配體矩陣,作為深度學(xué)習(xí)模型的輸入。
步驟3:將蛋白質(zhì)的氨基酸序列轉(zhuǎn)換為蛋白質(zhì)矩陣,作為深度學(xué)習(xí)模型的輸入。
步驟4:構(gòu)建用于模型訓(xùn)練的深度學(xué)習(xí)模型的架構(gòu),將配體矩陣送到一個全連接層和一個基于門增強(qiáng)的注意力層用于特征提取,通過矩陣行的加和方式來聚合配體片段的特征向量。
步驟5:將蛋白質(zhì)矩陣先送到一維卷積層和最大池化層,以減少蛋白質(zhì)矩陣的行數(shù),然后再送入基于門增強(qiáng)的注意力層用于特征提取,通過矩陣行的加和方式來聚合蛋白質(zhì)高階氨基酸的特征向量。
步驟6:將聚合后的配體片段的特征向量與蛋白質(zhì)高階氨基酸的特征向量拼接在一起送入后續(xù)的全連接層以預(yù)測靶標(biāo)-配體復(fù)合物的高/低結(jié)合親和力的概率。
進(jìn)一步地,步驟1具體包括:根據(jù)以下標(biāo)準(zhǔn)對結(jié)合親和力數(shù)據(jù)庫進(jìn)行預(yù)處理:
步驟1.1:刪除涉及IC50性質(zhì)的條目,保留涉及Ki和Kd性質(zhì)的條目。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210394865.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測設(shè)備
- 一種考慮激勵機(jī)制電量電價彈性矩陣的耗電量估測方法
- 選擇區(qū)塊鏈共識機(jī)制的方法、裝置以及共識節(jié)點
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲設(shè)備糾錯方法及糾錯裝置
- 區(qū)塊鏈中共識機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





