[發明專利]基于圖卷積的面向ErbB靶向蛋白家族的打分函數構建方法有效
| 申請號: | 201911064826.3 | 申請日: | 2019-11-04 |
| 公開(公告)號: | CN110767266B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 楊帥;王卓亞;王小紅;趙志剛;竇方坤;曹皓偉;魏志強;劉昊;楊金波 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心);青島海洋科學與技術國家實驗室發展中心 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B15/30 |
| 代理公司: | 北京華際知識產權代理有限公司 11676 | 代理人: | 褚慶森 |
| 地址: | 250014 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖卷 面向 erbb 靶向 蛋白 家族 打分 函數 構建 方法 | ||
本發明的基于圖卷積的面向ErbB靶向蛋白家族的打分函數構建方法,包括:a).構建ErbB靶向蛋白數據,對于ErbB包含的4個受體酪氨酸激酶ErbB?1、ErbB?2、ErbB?3和ErbB?4均構建靶向蛋白數據集;b).擴大數據集規模,采用原始構象、旋轉構象、優化構象的方法擴大數據集規模;c).構建ErbB靶向蛋白家族機器學習打分函數模型;d).模型的訓練和評估。本發明的打分函數構建方法,建了一個ErbB蛋白家族機器學習分子親和力評估數據集,為ErbB蛋白家族的機器學習任務奠定了數據基礎;通過GCN技術突破了經典打分函數的瓶頸,提高了打分函數的性能,解決了機器學習打分函數通用模型準確率低的問題。
技術領域
本發明涉及一種打分函數構建方法,更具體的說,尤其涉及一種基于圖卷積的面向ErbB靶向蛋白家族的打分函數構建方法。
背景技術
評估蛋白質-配體的相互作用力是基于結構藥物設計的基石。打分函數是評價蛋白質-配體親和力的重要方法,如圖1所示,給出了現有打分函數的分類示意圖,現有技術方案主要分為兩大類:經典打分函數、機器學習打分函數。
經典的打分函數基于知識經驗,通過制定規則來定量衡量蛋白質-配體相互作用力。按照其打分規則側重點不同,分為:基于力場的打分函數(例如:AutoDock)、基于知識的打分函數(例如:DrugScore)、基于經驗的打分函數三大類(例如:X-Score)以及綜合了經驗和知識的打分方程(AutoDock?Vina)。
機器學習打分函數則通過機器學習方法對蛋白質-配體相互作用力進行評估,從機器學習模型構建方法的角度,可細分為:基于支持向量機、隨機森林樹的方法、基于神經網絡的方法,RFScore、NNScore、PotentialNet是極具代表意義的機器學習打分函數。經典打分函數與機器學習打分函數的區別如圖2所示,總體來說,經典打分函數是基于既定規則的蛋白質-配體親和力評估方法,而機器學習打分函數則運用機器學習的方法來實現端到端的蛋白質-配體評估。
打分函數在加快先導化合物發現、縮短制藥周期方面極具價值,然而仍存在諸多不足。經典的打分函數通過線性方程衡量蛋白質-配體親和力,它基于既有的經驗或知識,無法利用大量的訓練數據。基于機器學習的打分函數則通過擬合訓練數據集進行蛋白質-配體親和力評估,其準確性隨著更多的訓練樣本而增加。
對于經典打分函數,由于蛋白質折疊動力學、分子力學、動態仿真等學科發展水平的限制,經典打分函數在對蛋白質-配體相互作用力的評估精度和可靠性上一直得不到提高,這導致其陷入發展瓶頸。
為了突破經典打分函數的瓶頸,機器學習打分函數應運而生。機器學習打分函數提高了對蛋白質-配體相互作用力的評估精度。然而,該類方法容易出現過擬合問題和泛化能力弱的問題。
由于蛋白結構的多樣性導致的不同靶點在結合過程存在異質性,這導致打分函數對于不同蛋白家族的打分性能參差不齊。對于機器學習打分函數而言,同一個打分函數的打分性能因研究的蛋白家族不同而差異巨大,不同打分函數對同一家族的蛋白性能也差異巨大。因此,一個通用的機器學習模型并不適用于所有的蛋白質家族。越來越多的研究表明靶向特定蛋白類型的個性化打分函數比通用打分函數的性能更加優異。
發明內容
本發明為了克服上述技術問題的缺點,提供了一種基于圖卷積的面向ErbB靶向蛋白家族的打分函數構建方法。
本發明的基于圖卷積的面向ErbB靶向蛋白家族的打分函數構建方法,其特征在于,通過以下步驟來實現:
a).構建ErbB靶向蛋白數據,對于ErbB包含的4個受體酪氨酸激酶ErbB-1、ErbB-2、ErbB-3和ErbB-4均構建靶向蛋白數據集,靶向蛋白數據集包括蛋白質-配體復合物信息列表、蛋白質-配體親和力數據、配體結構數據、蛋白質結構數據、蛋白質-配體結合位點數據,其中蛋白質-配體親和力數據包括解離常數Kd和抑制常數Ki;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心);青島海洋科學與技術國家實驗室發展中心,未經山東省計算中心(國家超級計算濟南中心);青島海洋科學與技術國家實驗室發展中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911064826.3/2.html,轉載請聲明來源鉆瓜專利網。





