[發明專利]一種基于集成特征選擇的癌癥甲基化數據分類方法在審
| 申請號: | 202011329335.X | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112382342A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 潘曉光;田奇;董虎弟;陳智嬌;白麗霞 | 申請(專利權)人: | 山西三友和智慧信息技術股份有限公司 |
| 主分類號: | G16B40/20 | 分類號: | G16B40/20;G16B20/00;G06K9/62 |
| 代理公司: | 太原榮信德知識產權代理事務所(特殊普通合伙) 14119 | 代理人: | 楊凱;連慧敏 |
| 地址: | 030000 山西省*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 特征 選擇 癌癥 甲基化 數據 分類 方法 | ||
本發明屬于數據處理技術領域,具體涉及一種基于集成特征選擇的癌癥甲基化數據分類方法,包括下列步驟:輸入甲基化位點的癌癥和正常樣本數據集,所述數據集中,每行表示被測個體,并被標注為正常或者癌癥,每列表示特征位點;數據預處理,濾除所述數據集中的各種缺失值;通過集成特征選擇方法來實現穩固的差異甲基化位點的選取;基于穩固的差異甲基化位點訓練多分類器模型,根據每個分類器的預測結果進行投票,得到最終的分類判別結果;輸出最終的分類結果。本發明能有效解決高通量的甲基化數據的差異位點識別以及對于潛在不確定性樣本的分類。本發明用于癌癥甲基化數據的分類。
技術領域
本發明屬于數據處理技術領域,具體涉及一種基于集成特征選擇的癌癥甲基化數據分類方法。
背景技術
隨著計算機和測序技術的發展,產生了越來越多的大規模生物學數據,如何挖掘其中蘊含的價值是進一步發展精準醫療的重要手段之一。DNA甲基化作為一種廣泛研究的表觀遺傳標記,在腫瘤發生中起著至關重要的作用。高通量測序技術的進步,如Infinium450K平臺,使得以單CpG位點分辨率提供基因組規模的DNA甲基化數據成為可能。在此基礎上,如何鑒別在正常和癌癥樣本中具有差異化表達的位點并且借此區分癌癥和正常人的表觀遺傳差異能夠提升人類對癌癥早期的發現和預防。但是,針對目前能夠獲得的數據,其樣本和位點數量之間極不平衡(大約1:1000),這就況導致大規模分析癌癥病人與正常人之間的甲基化數據變得尤為困難。目前已有基于大規模甲基化數據區分癌癥和正常樣本的方法,大多基于簡單特征預處理加單個分類器,使得難以精確地區別癌癥和正常樣本,并且難以獲得對于區分癌癥和正常樣本至關重要的差異甲基化位點。
發明內容
針對上述現有的基于大規模甲基化數據區分癌癥和正常樣本的方法難以精確地區別癌癥和正常樣本的技術問題,本發明提供了一種分類準確度高、識別能力強、效率高的基于集成特征選擇的癌癥甲基化數據分類方法。
為了解決上述技術問題,本發明采用的技術方案為:
一種基于集成特征選擇的癌癥甲基化數據分類方法,包括下列步驟:
S1、輸入甲基化位點的癌癥和正常樣本數據集,所述數據集中,每行表示被測個體,并被標注為正常或者癌癥,每列表示特征位點;
S2、數據預處理,濾除所述數據集中的各種缺失值;
S3、通過集成特征選擇方法來實現穩固的差異甲基化位點的選取;
S4、基于穩固的差異甲基化位點訓練多分類器模型,根據每個分類器的預測結果進行投票,得到最終的分類判別結果;
S5、輸出最終的分類結果。
所述S2中數據預處理的方法為:包括下列步驟:
S2.1、查找數據中的缺失值,若原數據中存在缺失值,濾除包含該缺失值的列或者特征;
S2.2、對不含缺失值的數據進行批次效應的校正;
S2.3、濾除方差最小的位點集,通過計算位點在所有測得的樣本中甲基化值的方差,對所有位點按照方差從大到小進行排序,然后舍去排在末尾的1/3左右的位點。
所述S2.2中采用經驗貝葉斯EB方法消除批次效應的影響。
所述S3中集成特征選擇方法為:包括下列步驟:
S3.1、引入樣本多樣性,所述樣本多樣性通過對原始數據進行等比列的多次隨機采樣,得到不同的樣本子集,然后在樣本子集上應用特征選擇方法以獲得不同的特征位點集合;
S3.2、引入函數多樣性,即通過在同一個樣本子集上應用不同的特征選擇方法以獲得不同的差異甲基化位點集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西三友和智慧信息技術股份有限公司,未經山西三友和智慧信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011329335.X/2.html,轉載請聲明來源鉆瓜專利網。





