[發明專利]基于機器學習和集成方法的化合物血腦屏障滲透性預測方法在審
| 申請號: | 202110062505.0 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112802561A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 劉宏生;劉黎黎;劉苗;張力;趙健 | 申請(專利權)人: | 遼寧大學 |
| 主分類號: | G16C20/30 | 分類號: | G16C20/30;G06N20/00 |
| 代理公司: | 沈陽杰克知識產權代理有限公司 21207 | 代理人: | 王洋 |
| 地址: | 110000 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 集成 方法 化合物 血腦屏障 滲透性 預測 | ||
一種基于機器學習和集成方法的化合物血腦屏障滲透性的預測方法,該方法包括第一步,特征提取,將待檢測的化合物通過分子指紋生成軟件生成指紋序列;第二步,通過低變異特征過濾和高度相關特征過濾進行特征選擇;第三步,采用支持向量機(SVM)、隨機森林(RF)以及極限梯度提升(XGBoost)分別構建三種基分類器模型;第四步,采用集成方法優化模型。本發明使用3種機器學習算法和多種分子指紋,開發了計算機集成學習模型來預測化合物血腦屏障滲透性。該模型對新分子具有較高的預測性能,可用于中樞神經系統藥物的早期篩查。
技術領域
本發明涉及計算機領域,是一種基于機器學習和集成方法的化合物血腦屏障滲透性 (BBB)的預測方法。
背景技術
中樞神經系統疾病嚴重威脅著人類的生命和健康,然而,仍然缺乏針對這一大類疾病的有效藥物和治療方法。血腦屏障是維持中樞神經系統穩態的嚴格滲透屏障,藥物是否可以穿透大腦是藥物設計中的關鍵考慮因素。用于中樞神經系統疾病的藥物必須能夠穿透血腦屏障。
傳統實驗方法需要復雜的實驗條件和高昂的研究成本,且效率非常低。
發明內容
本發明的目的是提供一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,克服了上述現有技術之不足,其能有效提升預測模型的靈敏度等性能,在藥物開發的初期,可以減少后期藥物開發的風險,降低研發成本。本發明采用計算機輔助的BBB滲透率評估方法,結合具有集成學習的機器學習方法,可大大提升模型的預測性能,最大程度滿足現代醫學的需求,同時具有高通量低成本和高效率的優點。
為了實現上述目的,本發明創造采用了如下技術方案:
一種基于機器學習和集成方法的化合物血腦屏障滲透性預測方法,其步驟為:
第一步,計算化合物分子指紋。
第二步,化合物分子指紋的預處理:通過低變異特征過濾和高度相關特征過濾,對步驟一中的化合物分子指紋進行過濾;
(1)低變異特征過濾:通過計算“頻率比”和“唯一值的百分比”來判斷樣本中哪些特征屬于低變異特征,即所有樣本中相似或幾乎相同的特征,將其刪除。
(2)高度相關特征過濾:刪除與其它分子指紋的Tanimoto相關系數大于50%-95%的高度相關特征。如果特征的相關性高,則說明該特征涵蓋了另一特征具有的信息,將相關性較高的特征同時引入模型,會導致預測結果較差,故將此類特征刪除。
判斷哪些特征為低變異特征,是通過計算“頻率比”和“唯一值的百分比”進行的。頻率比是指出現頻率最高的值的頻率與出現頻率第二高的值的頻率的比值,低變異特征的頻率比特別高。唯一值的百分比是指特征中唯一值的個數與總樣本數(乘以100)的比值,在本發明中,如果存在頻率比大于95/5且唯一值的百分比小于10的特征,則判定該特征為低變異特征,將其刪除。在進行高度相關的特征過濾時,用Tanimoto系數評估化合物是否具有一個或多個高度相關的特征。為了選擇Tanimoto相關系數的最佳閾值,使用RF預測模型來評估不同Tanimoto相關系數閾值對分子指紋的高相關特征過濾的影響。
第三步,采用支持向量機、隨機森林以及極限梯度提升算法,對過濾后的化合物分子指紋分別構建預測化合物血腦屏障滲透性的基分類器;
第四步,采用集成方法構建預測化合物血腦屏障滲透性的集成模型;
通過融合第三步得到的基分類器來構建集成模型,為Ensemble-Top1至Ensemble-TopN,N為基分類器個數;將上述的基分類器按照AUC值從大到小的順序排列,Ensemble-Top1模型是具有最高AUC的基分類器模型。Ensemble-Top2模型由AUC值排列在前兩名的基分類器融合而成,以此類推,Ensemble-Top3到Ensemble-TopN模型由AUC值排列在前3-N 名的基分類器融合而成;最終,選擇具有最高AUC值的模型作為最終的集成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧大學,未經遼寧大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110062505.0/2.html,轉載請聲明來源鉆瓜專利網。





