[發明專利]基于機器學習和集成方法的化合物血腦屏障滲透性預測方法在審
| 申請號: | 202110062505.0 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112802561A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 劉宏生;劉黎黎;劉苗;張力;趙健 | 申請(專利權)人: | 遼寧大學 |
| 主分類號: | G16C20/30 | 分類號: | G16C20/30;G06N20/00 |
| 代理公司: | 沈陽杰克知識產權代理有限公司 21207 | 代理人: | 王洋 |
| 地址: | 110000 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 集成 方法 化合物 血腦屏障 滲透性 預測 | ||
1.一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其特征在于,其步驟為:
第一步,計算化合物分子指紋;
第二步,化合物分子指紋的預處理:通過低變異特征過濾和高度相關特征過濾,對步驟一中的化合物分子指紋進行過濾;
第三步,采用支持向量機、隨機森林以及極限梯度提升算法,對過濾后的化合物分子指紋分別構建預測化合物血腦屏障滲透性的基分類器;
第四步,采用集成方法使用第三步中的基分類器構建預測化合物血腦屏障滲透性的集成模型。
2.根據權利要求1所述的一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其特征在于,所述的第二步中,包括有:
(1)低變異特征過濾:通過計算“頻率比”和“唯一值的百分比”來判斷樣本中的低變異特征,低變異特征即為所有樣本中相似或幾乎相同的特征,將其刪除。
(2)高度相關特征過濾:刪除與其它分子指紋的Tanimoto相關系數大于50%-95%的高度相關特征。
3.根據權利要求2所述的一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其特征在于,所述的(1)中,如果存在頻率比大于95/5且唯一值的百分比小于10的特征,則判定該特征為低變異特征。
4.根據權利要求1所述的一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其特征在于,所述的第三步中,具體方法為:使用三種機器學習算法:支持向量機、隨機森林以及極限梯度提升,分別與第二步最終的分子指紋結合,構建相應的基分類器。
5.根據權利要求1所述的一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其特征在于,所述的步驟4中,具體方法為:通過融合第三步得到的基分類器來構建集成模型,為Ensemble-Top1至Ensemble-TopN,N為基分類器個數;將上述的基分類器按照AUC值從大到小的順序排列,Ensemble-Top1模型是具有最高AUC的基分類器模型。Ensemble-Top2模型由AUC值排列在前兩名的基分類器融合而成,以此類推,Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N名的基分類器融合而成;最終,選擇具有最高AUC值的模型作為最終的集成模型。
6.根據權利要求5所述的一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其特征在于,得到集成模型后,對集成模型進行內部交叉驗證和外部驗證集驗證,評估模型性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧大學,未經遼寧大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110062505.0/1.html,轉載請聲明來源鉆瓜專利網。





