[發明專利]一種快速虛擬篩選人體小腸易吸收藥物的方法有效
| 申請號: | 201510069837.6 | 申請日: | 2015-02-10 |
| 公開(公告)號: | CN104636619B | 公開(公告)日: | 2017-11-14 |
| 發明(設計)人: | 朱祥偉 | 申請(專利權)人: | 青島農業大學 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 青島中天匯智知識產權代理有限公司37241 | 代理人: | 郝團代 |
| 地址: | 266000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 虛擬 篩選 人體 小腸 吸收 藥物 方法 | ||
1.一種快速虛擬篩選人體小腸易吸收藥物的方法,其特征在于,包括以下步驟:
一、化合物小腸吸收數據庫的優化:將已有的化合物分子結構及其小腸吸收率數值收集形成化合物小腸吸收數據庫,分別對化合物數據的結構與活性進行優化,得到具有明確的小腸吸收率的單一化合物數據庫,化合物的分子量集中在50~500之間;所述優化方式為剔除有機金屬化合物、混合物,消除順反異構,消除化合物結構手性碳結構,將剩余的所有化合物結構都標準化,經過排序,對于小腸吸收率相同的重復化合物保留一個,對于吸收率數值不同的重復化合物,根據其重復個數,若重復數目為2,計算兩重復化合物小腸吸收率的平均值M,若|S1-M|/M>0.20,則表示活性值差異大,舍棄該化合物,若|S1-M|/M在0.20以內,則以平均值M為該化合物實際小腸吸收率;若重復化合物數目為3個或超過3個,則采用狄克遜Dixon檢驗法,剔出異常值后,對剩余小腸吸收值取平均值代表該化合物實際的小腸吸收率,S1表示兩化合物中一個的吸收率;
二、描述符計算與變量預處理:將步驟一所得化合物信息利用不同的化合物描述符計算軟件,計算不同類型的描述符,為解決描述符中存在大量的近似常量或共線性高的變量,首先利用如下方法對描述符進行歸一化處理xs=(xi-xmin)/(xmax-xmin),其中,xs為歸一化后描述符的值,xi為描述符原始值,xmax與xmin分別表示描述符的最大與最小值,通過上述公式xs=(xi-xmin)/(xmax-xmin)將描述符值歸一到0到1之間,同時記錄每個描述符的最小值xmin和最大值xmax,刪除標準偏差小于0.001的描述符,若兩個描述符的相關性大于0.90,則刪除其中一個;
三、重要變量篩選及線性模型構建:基于步驟一中得到的化合物活性數據和步驟二中計算的結構描述符數據利用變量篩選方法,對每個類型的描述符變量依重要性大小進行排序,挑選部分重要描述符,以化合物的小腸吸收率為因變量,采用多元線性回歸方法構建的預測化合物小腸吸收率的線性方程模型,對于每種類型的描述符,構建一組多元線性回歸方程;
四、預測藥物前導化合物的人小腸吸收率:藥物前導化合物分子結構按照步驟一中的結構優化方法優化,按步驟二中的軟件計算藥物前導化合物的化學結構描述符,依據步驟二中記錄每種描述符的最小值xmin和最大值xmax,對藥物前導化合物的描述符進行歸一化處理,最終依步驟三選取的重要描述符,將新化合物中對應描述符的數值代入步驟三構建的多元線性回歸方程,計算出活性,即該藥物前導化合物的人小腸吸收率預測值,同時,將不同線性方程的預測值平均,即是藥物前導化合物分子的最終小腸吸收預測值。
2.根據權利要求1所述的快速虛擬篩選人體小腸易吸收藥物的方法,其特征在于:所述不同類型的描述符是指:各種依據有機化合物的分子結構計算其相關參數的結構描述符,包括一維、二維、三維的化學結構描述符。
3.根據權利要求1所述的快速虛擬篩選人體小腸易吸收藥物的方法,其特征在于:所述變量篩選方法包括簡單的逐步回歸到復雜的機器學習方法,可以針對所有描述符的重要性進行定量化排序的變量篩選方法。
4.根據權利要求1所述的快速虛擬篩選人體小腸易吸收藥物的方法,其特征在于:所述挑選部分重要描述符是指:依據描述符重要性排序,從最重要描述符進行始挑選,其最終用于構建多元線性回歸模型的描述符個數不超過建模化合物數目的10%。
5.根據權利要求1所述的快速虛擬篩選人體小腸易吸收藥物的方法,其特征在于:所述步驟二經預處理后,得到388個具有準確小腸吸收率的單一化合物。
6.根據權利要求1所述的快速虛擬篩選人體小腸易吸收藥物的方法,其特征在于:所述步驟二中采用Dragon和CDK兩種描述符計算軟件,所述步驟三中利用隨機森林法進行經變量篩選,選取10個重要的Dragon描述符為自變量,以化合物的小腸吸收率為因變量,構建線性方程模型,公式1:
y=1.126(±0.0743)+1.145(±0.196)*TPSA(Tot)-0.339(±0.143)*Hy-0.338(±0.0936)*F03[N-O]+0.00850(±0.176)*nO-0.0624(±0.0935)*ALOGP-0.326(±0.0920)*O-057+0.330(±0.315)*nROH+0.741(±0.274)*T(N..O)+0.495(±0.252)*T(O..O)-0.803(±0.299)*O-056,擬合誤差為0.163,其中,TPSA(Tot)表示拓撲極性表面積(N,O,S,P);Hy表示親水性;F03[N-O]表示N與O拓撲距離為3的結構數目;nO表示氧原子數目;ALOGP表示Ghose-Crippen辛醇-水分配系數;O-057表示酚、醇及羧酸中的OH;nROH表示羥基數目;T(N..O)表示N與O拓撲總距離;T(O..O)表示O與O拓撲總距離;O-056表示乙醇基團;
選取10個重要的CDK描述符為自變量,以化合物的小腸吸收率為因變量,構建線性模型,公式2:
y=1.070(±0.0521)-1.090(±0.293)*TopoPSA-0.800(±0.186)*nHBDon-0.742(±0.111)*MDEO-11+0.515(±0.211)*nHBAcc-0.0570(±0.151)*khs.sOH+1.118(±0.268)*WTPT-4-0.0434(±0.0820)*XLogP-1.390(±0.356)*ATSc1-0.0401(±0.0413)*khs.aaNH+0.388(±0.296)*WTPT-3,其中,TopoPSA表示拓撲極性表面積;nHBDon表示氫鍵供體數目;MDEO-11表示C,N與O的分子距離指數;nHBAcc表示氫鍵受體數目;khs.sOH,表示E-state碎片數目;WTPT-4表示Randic路徑加權指數;XLogP表示基于原子類型計算的辛醇-水分配系數;ATSc1和Khs.aaNH表示沒有明確含義;WTPT-3表示Randic路徑指數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島農業大學,未經青島農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510069837.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電池監視裝置以及電池監視裝置的診斷方法
- 下一篇:感測裝置
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





