[發明專利]一種基于機器學習算法獲取腫瘤標記物的方法和系統在審
| 申請號: | 202011411176.8 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112466389A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 萬季;葉一林;汪健;夏迪;潘有東;王弈;宋麒 | 申請(專利權)人: | 深圳市新合生物醫療科技有限公司 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B20/20;G16B20/30;G16B40/00;G06N20/00 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 吳金水 |
| 地址: | 518055 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 算法 獲取 腫瘤 標記 方法 系統 | ||
本發明公開了一種基于機器學習算法獲取腫瘤標記物的方法和系統,所述方法包括:采集點腫瘤標記物檢測樣本的樣本數據;對所述樣本數據進行初步特征數據的篩選,獲得特征索引;將特征索引對應的特征數據取出并拼接形成樣本的特征向量;根據樣本特征向量進行神經網絡模型的訓練;利用訓練好的神經網絡模型對腫瘤標記物進行檢測,并輸出真的結果信息,所述系統包括與所述方法步驟對應的模塊。
技術領域
本發明涉及分子伴隨診斷領域,具體涉及一種基于機器學習算法獲取腫瘤標記物的方法和系統,從而有效的區分癌癥病人與正常人。
背景技術
DNA甲基化在腫瘤發生發展過程中具有重要的作用。通過檢測組織或者血液DNA的甲基化水平來確診早期腫瘤已成為近年來分子診斷領域的熱點之一。目前在檢測上應用的DNA甲基化位點通常是通過分析甲基化芯片數據和高通量測序數據而獲得。這類檢測利用統計檢驗方法獲得在腫瘤組織和正常組織之間顯著差異的甲基化位點,從而確定檢測的目標甲基化位點。然而在存在海量甲基化位點的背景下,這種方法由于沒有考慮甲基化位點之間的聯合效應,而使得最終選擇的位點不是全局最優的位點。因此利用機器學習算法來尋找全局最優的甲基化多位點腫瘤檢測標記物便具有重要的臨床意義。
發明內容
針對存在的上述問題,本發明綜合考慮了各位點分別在染色體級別與整個樣本級別的重要性,開發了一種在小樣本數據集上進行特征篩選,從而高效準確地對樣本所患癌種進行分類預測的生物信息學方法。
根據本發明的方案,提供了一套由計算機實現的、可并行計算的基于梯度提升決策樹(gradient boosting decision tree)的染色體特征篩選器與基于全連接神經網絡的樣本特征篩選器。從而對樣本的癌種進行分類與預測的生物信息學方法。旨在通過梯度提升決策樹(gradient boosting decision tree)對來自不同染色體的位點特征進行初級特征選擇,隨后通過全連接神經網絡對樣本的全體位點特征進行次級選擇,最終進行預測??紤]到樣本數量與特征數量的巨大差別,我們針對特征挑選的每一個目的制定了獨立的步驟。從而使得訓練算法所需要的樣本數量大大降低,而準確性大大提升。此外,帶有混合范數損失函數的引入使得我們的神經網絡在沒有增加額外可訓練參數的前提下高效的完成了特征挑選的工作。
為至少部分地解決上述問題,本發明提供了一種基于機器學習算法獲取腫瘤標記物的方法,所述方法包括:
采集點腫瘤標記物檢測樣本的樣本數據;
對所述樣本數據進行初步特征數據的篩選,獲得特征索引;
將特征索引對應的特征數據取出并拼接形成樣本的特征向量;
根據樣本特征向量進行神經網絡模型的訓練;
利用訓練好的神經網絡模型對腫瘤標記物進行檢測,并輸出真的結果信息。
進一步地,所述采集點腫瘤標記物檢測樣本的樣本數據包括染色體、位點、以及定量信息。
進一步地,所述對所述樣本數據進行初步特征數據的篩選,獲得特征索引的包括:
利用樣本數據進行構建梯度提升決策樹;
采用sklearn框架對梯度提升決策樹進行訓練;
當梯度提升決策樹訓練完成后,通過numpy.where()函數獲取特征索引。
進一步地,所述根據樣本特征向量進行神經網絡模型的訓練包括:
針對神經網絡模型之中的主體神經網絡結構之中的至少一部分層,分別獲得與其中每層的輸出對應的層預測結果;
基于由神經網絡模型的輸出層所輸出的預測結果與樣本數據的真實結果值的差異來構建模型損失函數;
以及根據所述模型損失函數來調整所述神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市新合生物醫療科技有限公司,未經深圳市新合生物醫療科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011411176.8/2.html,轉載請聲明來源鉆瓜專利網。





