[發明專利]一種基于機器學習的藥物重定位方法在審
| 申請號: | 202110169907.0 | 申請日: | 2021-02-04 |
| 公開(公告)號: | CN112837743A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 石陽;任濤;王逸群;曲穎 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G06K9/62;G06N20/00 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李珉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 藥物 定位 方法 | ||
本發明提供一種基于機器學習的藥物重定位方法,涉及機器學習技術領域。該方法選取多種藥物作為樣本,并獲取每種藥物的適應癥;再選取多種靶點蛋白數據作為藥物樣本特征,并利用基于機器學習的數據降維算法將藥物—靶點蛋白向量進行數據降維;利用相關性分析算法,選取每種藥物的多種理化特征;然后將經過降維后的藥物—靶點蛋白向量特征和藥物理化特征一并作為藥物分子的特征,以藥物的適應癥作為標簽,構建藥物療效數據集,建立三種梯度提升樹,并使用藥物療效數據集中的數據對三種梯度提升樹進行訓練;融合三種提升樹建立藥物療效的預測模型,并利用Kflod算法,對N藥物的療效進行多輪預測,最終預測出m種對某疾病治療有效的藥物。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種基于機器學習的藥物重定位方法。
背景技術
根據統計數據,一種新藥從構思產生,到先導化合物的合成,再經過臨床實驗,到最終成功上市,需要大概15年的時間,需要耗費10億美元左右。而且這個費用是在逐年增長的。并且藥物研發存在著風險,如果在研發后期的實驗中發現藥物存在問題,之前的投入將會白白浪費,因此風險很大。
藥物重定位是指發現已上市藥物的新適應癥,是網絡藥理學的重要應用領域。藥物重定位策略是目前已知的藥物研發策略中風險與效益比最好的策略之一,也是一種解決新藥開發高投入低成功率困境的有效方法之一。現有研究方法主要有基于小分子(或配體)特征的方法、基于蛋白靶點(或受體)特征的方法、基于表型(或網絡)特征的方法。隨著對防治重大疾病有效藥物需求的不斷增加,以及系統生物學、計算生物學、網絡藥理學等相關學科的快速發展,面對新藥研發難度越來越大的嚴峻形勢,藥物重定位已成為世界范圍內關注的熱點,在藥物研發領域占據重要地位。但是藥物種類多樣,藥物分子理化性質眾多,藥物和蛋白靶點作用復雜。所以如何利用這些海量數據準確發掘出藥物的新適應癥是亟需解決的問題。
現如今,機器學習進入研究熱流,可以對大數據進行分析與挖掘。作為一門人工智能的科學,機器學習通過計算機語言對數據進行深度挖掘,對規律進行深度探索。所以,通過構建機器學習模型來實現對藥物的新適應癥進行預測,可突破傳統預測方法的缺點,實現更精確的預測判斷,提高實驗效率和節省成本。
藥物重定位具有高效,低成本的特點,自新冠疫情發生以來,如何篩選出對新冠的藥物成為一項亟待解決的問題,而傳統的藥物研發周期過于漫長,需要耗費大量的時間還有人力物力財力。而采用機器學習的方法對已將上市的藥物進行篩選,從中選取可能對新冠有效的特效藥,在此基礎上進行臨床實驗就會節省大量的成本。
發明內容
本發明要解決的技術問題是針對上述現有技術的不足,提供一種基于機器學習的藥物重定位方法,基于機器學習實現對藥物的重定位。
為解決上述技術問題,本發明所采取的技術方案是:一種基于機器學習的藥物重定位方法,包括以下步驟:
步驟1:選取N種藥物作為實驗樣本,并通過爬蟲技術爬取每種藥物的適應癥,每種藥物的分子式唯一,并以SMILES格式進行表示;同時將N種藥物按照一定比例分為訓練集和測試集;
在drugcentral網站中利用爬蟲技術爬取每種藥物相應的適應癥信息,具體方法為:
調用pandas庫中的read_csv函數讀取所要研究藥物的名稱并儲存于列表之中;調用requests庫中的get函數獲取網頁源代碼;調用re庫中compile函數對網頁源代碼中的正則表達式進行預編譯;編譯后,使用findall函數根據正則表達式從網頁源代碼中將與所要研究藥物匹配的適應癥全部找出,并將爬取到的數據儲存于列表之中,最后存儲為一個csv文件;
步驟2:選取M種靶點蛋白數據作為N種藥物樣本特征,一個靶點蛋白對應一種或者多種藥物,表示該藥物與該靶點蛋白之間有相互作用;并利用基于機器學習的數據降維算法將N*M的“藥物—靶點蛋白向量”進行數據降維;
利用基于機器學習的數據降維算法PCA對“藥物—靶點蛋白”向量進行數據降維;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110169907.0/2.html,轉載請聲明來源鉆瓜專利網。





