[發明專利]抗乳腺癌候選藥物分子描述符的篩選方法、系統及終端在審
| 申請號: | 202111663622.9 | 申請日: | 2021-12-31 |
| 公開(公告)號: | CN114334033A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 陳家銳;楊培浩;李升;林慧賢 | 申請(專利權)人: | 廣東海洋大學 |
| 主分類號: | G16C20/30 | 分類號: | G16C20/30;G16C20/70 |
| 代理公司: | 深圳市廣諾專利代理事務所(普通合伙) 44611 | 代理人: | 祝晶 |
| 地址: | 524088 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 乳腺癌 候選 藥物 分子 描述 篩選 方法 系統 終端 | ||
本發明公開了抗乳腺癌候選藥物分子描述符的篩選方法、系統及終端,涉及醫學數據挖掘技術領域,其技術方案要點是:獲取多個化合物對ERα的生物活性數據,每個化合物配置有多個分子描述符,得到由分子描述符組成的自變量集;基于LASSO回歸方法建立初步篩選模型,以初步篩選模型對自變量集進行降維處理,得到變量系數不為零的初篩變量集;基于隨機森林遞歸特征消除法建立變量篩選模型,以變量篩選模型對初篩變量集對初篩變量集進行迭代特征選擇,得到分類精度最高的最優特征變量組合。本發明能夠較好的從大量數據中篩選出最具顯著影響的分子描述符,具有效率高、可靠性強以及智能化實現等特點。
技術領域
本發明涉及醫學數據挖掘技術領域,更具體地說,它涉及抗乳腺癌候選藥物分子描述符的篩選方法、系統及終端。
背景技術
在我國,乳腺癌的發病率呈逐年上升趨勢,每年有30余萬女性被診斷出乳腺癌。從發病年齡來看,我國乳腺癌發病率從20歲以后開始逐漸上升,45~50歲達到高值。乳腺癌是乳腺上皮細胞在多種致癌因子的作用下,發生增殖失控的現象。作為一種激素依賴性腫瘤,是目前世界上最常見且致死率較高的癌癥之一。
乳腺癌的發生、發展與雌激素受體α亞型(Estrogen receptors alpha,ERα)的表達密切相關。研究發現,雌激素受體ERα在50%-80%的乳腺腫瘤細胞中表達。而ERα的活性pIC50值有關,pIC50值越大表明生物活性越高,對抑制ERα活性越有效。因此,能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。近年來,數據挖掘技術通過揭示大量的數據中隱藏著未知的且具有潛在價值的信息,而引起了廣大的關注,并提供給人們做決策。在藥物研發中,因變量和自變量的切換頻率較高、數據量較大,傳統的人工處理、簡單計算機分析已不能滿足研究人員的需求。
因此,如何研究設計一種時間成本低、分析效率高的抗乳腺癌候選藥物分子描述符的篩選方法、系統及終端是我們目前急需解決的問題。
發明內容
為解決現有技術中的不足,本發明的目的是提供抗乳腺癌候選藥物分子描述符的篩選方法、系統及終端,建立化合物活性篩選模型來選擇對活性具有顯著影響的分子描述符,用來篩選潛在活性化合物或者預測新的化合物,具有效率高、可靠性強以及智能化實現等特點。
本發明的上述技術目的是通過以下技術方案得以實現的:
第一方面,提供了抗乳腺癌候選藥物分子描述符的篩選方法,包括以下步驟:
獲取多個化合物對ERα的生物活性數據,每個化合物配置有多個分子描述符,得到由分子描述符組成的自變量集;
基于LASSO回歸方法建立初步篩選模型,以初步篩選模型對自變量集進行降維處理,得到變量系數不為零的初篩變量集;
基于隨機森林遞歸特征消除法建立變量篩選模型,以變量篩選模型對初篩變量集對初篩變量集進行迭代特征選擇,得到分類精度最高的最優特征變量組合。
進一步的,所述分子描述符為用于描述化合物的結構和性質特征的參數。
進一步的,所述初步篩選模型對自變量集進行降維處理時,綜合考慮訓練精度和正則化參數變化情況來確定實際降維處理的正則化參數取值。
進一步的,所述正則化參數取值的確定過程具體為:
獲取不同懲罰項所對應的精度結果;
以懲罰項為橫軸、精度結果為縱軸建立平滑擬合曲線;
分析得到平滑擬合曲線中不同懲罰項對應的曲線斜率絕對值;
將曲線斜率絕對值和懲罰項相乘計算得優先值;
以優先值最大的懲罰項所對應的正則化參數作為最終確定的正則化參數取值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東海洋大學,未經廣東海洋大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111663622.9/2.html,轉載請聲明來源鉆瓜專利網。





