[發明專利]一種基于集成學習與混合神經網絡的多靶標藥物篩選方法有效
| 申請號: | 202110339575.6 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113066525B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 陳觀興;譚曉軍;陳語謙 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B50/00;G16C20/50;G16C20/70;G16C20/90;G06N20/10;G06N20/20 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 學習 混合 神經網絡 靶標 藥物 篩選 方法 | ||
1.一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,包括以下步驟:
獲取致病靶標蛋白質、對應已知配體和藥物分子庫數據;
所述獲取致病靶標蛋白質、對應已知配體和藥物分子庫數據這一步驟,具體包括,從UniProt數據庫中獲取靶標蛋白質的序列和晶體結構,并進行蛋白質的質量評估;從ChEMBL數據庫中獲取靶標蛋白質的已知配體分子及對應的簡化分子線性輸入規范;從ZINC15數據庫中獲取藥物分子庫結構及其對應的簡化分子線性輸入規范;
基于藥物分子庫數據與致病靶標蛋白質進行對接處理,并根據對接分數得到候選藥物;
確定致病靶標蛋白質對應的多靶標蛋白質并將候選藥物與多靶標蛋白質進行對接,得到候選藥物作用的靶標蛋白數量;
計算候選藥物與靶標蛋白質的已知配體分子的物理化學屬性;
以靶標蛋白質的已知配體分子的物理化學屬性作為特征并進行特征選擇,得到選擇后特征;
以靶標蛋白質的已知配體分子的活性值及其對應的選擇后特征對預設的集成學習回歸模型進行訓練,得到訓練完成的集成學習回歸模型;
基于訓練完成的集成學習回歸模型對候選藥物分子的活性值進行預測,得到候選藥物的預測活性值;
基于預設的混合神經網絡框架對致病靶標蛋白質與候選藥物進行結合力的預測,得到候選藥物與靶標蛋白的結合力分數;
綜合候選藥物作用的靶標蛋白數量、候選藥物的預測活性值、候選藥物與靶標蛋白的結合力分數,確定最終的候選藥物。
2.根據權利要求1所述一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,所述基于藥物分子庫數據與致病靶標蛋白質進行對接處理,并根據對接分數得到候選藥物這一步驟,其具體包括:
對靶標蛋白質和藥物分子庫進行對接前的準備;
以靶標蛋白質為受體、藥物分子為配體,進行對接,得到對接分數;
將對接分數前10的藥物作為候選藥物。
3.根據權利要求2所述一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,所述確定致病靶標蛋白質對應的多靶標蛋白質并將候選藥物與多靶標蛋白質進行對接,得到候選藥物作用的靶標蛋白數量這一步驟,其具體包括:
從STRING數據庫中獲取致病靶標蛋白質的蛋白質-蛋白質關系并選擇高置信度的蛋白質組合,得到多靶標蛋白質;
將多靶標蛋白質輸入到DAVID數據庫內進行分析,按預設規則選定蛋白質;
將選定的蛋白質與候選藥物進行對接處理,得到各候選藥物作用的靶標蛋白數量。
4.根據權利要求3所述一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,所述集成學習回歸模型包括基于集成學習Boosting、Bagging、Stacking算法及其變形體、以及集成學習Voting算法投票器。
5.根據權利要求4所述一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,所述基于預設的混合神經網絡框架對致病靶標蛋白質與候選藥物進行結合力的預測,得到候選藥物與靶標蛋白的結合力分數這一步驟,其具體包括:
將致病靶標蛋白質的序列、已知配體對應的簡化分子線性輸入規范及活性值作為數據集,并分為訓練集、測試集和驗證集;
基于訓練集、測試集和驗證集對預設的混合神經網絡框架進行訓練,調整參數得到訓練完成的混合神經網絡框架;
基于訓練完成的混合神經網絡框架分別對致病靶標蛋白質的序列和候選藥物對應的簡化分子線性輸入規范進行編碼和深度嵌入處理;
將靶標蛋白質、已知配體和候選藥物的深度嵌入輸入到多層感知器中,輸出一致性指數、均方誤差和結合力的預測分數;
將一致性指數和均方誤差分別由高往低繪制成熱圖,選擇顏色最深的區間的預測結果做平均處理,得到最終的候選藥物與靶標蛋白的結合力分數。
6.根據權利要求5所述一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,所述混合神經網絡框架包括深度神經網絡、卷積神經網絡、卷積神經網絡與長短期記憶神經網絡、圖注意力神經網絡和Transformer五個基本模型。
7.根據權利要求6所述一種基于集成學習與混合神經網絡的多靶標藥物篩選方法,其特征在于,所述綜合候選藥物作用的靶標蛋白數量、候選藥物的預測活性值、候選藥物與靶標蛋白的結合力分數,確定最終的候選藥物這一步驟,其具體包括:
將候選藥物作用的靶標蛋白數量為實際分數,得到第一項評分;
將候選藥物的預測活性值由高到低排序,活性最強為10分,活性最低為1分,以此規則打分,得到第二項評分;
將候選藥物與靶標蛋白的結合力分數由高到低排序,結合力數值最高的得10分,數值最低的為1分,以此規則打分,得到第三項評分;
將候選藥物的第一項評分、第二項評分和第三項評分進行求和,并以求和后的評分最高作為最終的候選藥物。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110339575.6/1.html,轉載請聲明來源鉆瓜專利網。





