[發明專利]基于機器學習的藥物療效影響因子挖掘方法在審
| 申請號: | 202110149674.8 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN112786104A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 曲穎;任濤;王逸群;石陽 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G06N20/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 藥物 療效 影響 因子 挖掘 方法 | ||
本發明提供一種基于機器學習的藥物療效影響因子挖掘方法,涉及機器學習技術領域。該方法首先獲取多種藥物數據,針對某種疾病構造影響因子空間,其中包括可治療該疾病的藥物以及不可治療該疾病的藥物,并對影響因子空間內的數據進行預處理;然后基于統計學指標計算影響因子空間的每個影響因子與藥效之間的相關系數;并建立機器學習的樹模型計算各個影響因子與藥效之間的相關系數;最后針對不同相關系數所對應的影響因子分別從大到小排序,并按照百分占比進行權重標識,再將對應影響因子的權重相加,最終選擇排行前n的影響因子。該方法能夠考慮到影響藥效的多種影響因素,范圍較廣,得到的結果有較高的可信度。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種基于機器學習的藥物療效影響因子挖掘方法。
背景技術
隨著對防治重大疾病有效藥物需求的不斷增加,以及系統生物學、計算生物學、網絡藥理學等相關學科的快速發展,面對新藥研發難度越來越大的嚴峻形勢。藥物療效影響因子的發掘對于新藥的研發十分關鍵。藥物研發人員可以依據重要的影響因子進行藥物的研制和測試,縮短藥物研發時間,減少成本。但是藥物分子理化性質眾多,藥物和蛋白靶點作用復雜,但是這些都是藥物療效的影響因素。所以如何利用這些海量數據準確發掘出藥物療效的重要影響因子是亟需解決的問題。
現如今,機器學習進入研究熱流,可以對大數據進行分析與挖掘。作為一門人工智能的科學,機器學習通過計算機語言對數據進行深度挖掘,通過構建機器學習模型來實現對藥物適應癥的影響因子進行挖掘,并結合統計學中各種的相關系數,使得挖掘得到的影響因子更準確,可為醫藥研發人員提供有效幫助。
發明內容
本發明要解決的技術問題是針對上述現有技術的不足,提供一種基于機器學習的藥物療效影響因子挖掘方法,基于機器學習實現對藥物療效影響因子進行挖掘。
為解決上述技術問題,本發明所采取的技術方案是:基于機器學習的藥物療效影響因子挖掘方法,包括以下步驟:
步驟1:獲取多種藥物數據,針對某種疾病構造影響因子空間,其中包括可治療該疾病的藥物以及不可治療該疾病的藥物,并對影響因子空間內的數據進行預處理;所述影響因子空間由藥物的多種靶點蛋白質數據以及多種藥物的理化性質構成,其中,靶點蛋白數據來自Drugbank數據庫,藥物的理化性質是利用Rdkit工具根據藥物的Smile計算得到;一種藥物對應多種靶點蛋白質和多種理化性質,這兩類因子構成了一種藥物的相關影響因子;對影響因子空間內的靶點蛋白數據進行編碼處理、降維處理,對影響因子空間的藥物理化性質數據進行編碼處理、異常值和空白值的處理;
步驟2:針對某種疾病的影響因子空間,基于統計學指標計算影響因子空間的每個影響因子與藥效之間的相關系數;所述藥效指的是這種藥物是否能夠治愈這種疾病,用0、1表示;基于統計學指標計算影響因子空間的每個影響因子與藥效之間的相關系數具體包括Pearson系數,Spearman系數,Kendall系數和Mutual Information系數;
步驟3:針對某種疾病的影響因子空間的數據,基于機器學習的樹模型進行影響因子的選擇;首先建立LightGB決策樹模型并進行訓練,根據模型計算各個影響因子與藥效之間的相關系數,具體包括Permutation系數,Tree Importance系數和SHAP系數;
步驟4:根據步驟2和步驟3計算的各相關系數,得到對藥效有重要影響的n個影響因子;針對不同相關系數所對應的影響因子分別從大到小排序,并按照百分占比進行權重標識,再將對應影響因子的權重相加,最終選擇排行前n的影響因子。
采用上述技術方案所產生的有益效果在于:本發明提供的基于機器學習的藥物療效影響因子挖掘方法,從統計學指標和機器學習兩個角度分別計算影響因子和藥效的相關系數,然后結合兩種系數,得到排行前n的重要影響因子。該方法能夠考慮到影響藥效的多種影響因素,范圍較廣,得到的結果有較高的可信度。使得挖掘得到的影響因子更準確,降低了實驗驗證的金錢和時間的消耗,可為醫藥研發人員提供有效幫助。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110149674.8/2.html,轉載請聲明來源鉆瓜專利網。





