[發明專利]基于機器學習的藥物療效影響因子挖掘方法在審
| 申請號: | 202110149674.8 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN112786104A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 曲穎;任濤;王逸群;石陽 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G06N20/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 藥物 療效 影響 因子 挖掘 方法 | ||
1.一種基于機器學習的藥物療效影響因子挖掘方法,其特征在于:包括以下步驟:
步驟1:獲取多種藥物數據,針對某種疾病構造影響因子空間,其中包括可治療該疾病的藥物以及不可治療該疾病的藥物,并對影響因子空間內的數據進行預處理;
步驟2:針對某種疾病的影響因子空間,基于統計學指標計算影響因子空間的每個影響因子與藥效之間的相關系數;所述藥效指的是這種藥物是否能夠治愈這種疾病,用0、1表示;
步驟3:針對某種疾病的影響因子空間的數據,基于機器學習的樹模型進行影響因子的選擇;首先建立LightGB決策樹模型并進行訓練,根據模型計算各個影響因子與藥效之間的相關系數;
步驟4:根據步驟2和步驟3計算的各相關系數,得到對藥效有重要影響的n個影響因子;針對不同相關系數所對應的影響因子分別從大到小排序,并按照百分占比進行權重標識,再將對應影響因子的權重相加,最終選擇排行前n的影響因子。
2.根據權利要求1所述的基于機器學習的藥物療效影響因子挖掘方法,其特征在于:步驟1所述影響因子空間由藥物的多種靶點蛋白質數據以及多種藥物的理化性質構成,其中,靶點蛋白數據來自Drugbank數據庫,藥物的理化性質是利用Rdkit工具根據藥物的Smile計算得到;一種藥物對應多種靶點蛋白質和多種理化性質,這兩類因子構成了一種藥物的相關影響因子。
3.根據權利要求2所述的基于機器學習的藥物療效影響因子挖掘方法,其特征在于:所述對影響因子空間內的數據進行預處理具體為:對影響因子空間內的靶點蛋白數據進行編碼處理、降維處理,對影響因子空間的藥物理化性質數據進行編碼處理、異常值和空白值的處理。
4.根據權利要求3所述的基于機器學習的藥物療效影響因子挖掘方法,其特征在于:步驟2所述基于統計學指標計算影響因子空間的每個影響因子與藥效之間的相關系數具體包括Pearson系數,Spearman系數,Kendall系數和Mutual Information系數。
5.根據權利要求3所述的基于機器學習的藥物療效影響因子挖掘方法,其特征在于:步驟3所述根據模型計算各個影響因子與藥效之間的相關系數具體包括Permutation系數,Tree Importance系數和SHAP系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110149674.8/1.html,轉載請聲明來源鉆瓜專利網。





