[發(fā)明專利]一種基于集成特征選擇的癌癥甲基化數(shù)據(jù)分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011329335.X | 申請(qǐng)日: | 2020-11-24 |
| 公開(公告)號(hào): | CN112382342A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 潘曉光;田奇;董虎弟;陳智嬌;白麗霞 | 申請(qǐng)(專利權(quán))人: | 山西三友和智慧信息技術(shù)股份有限公司 |
| 主分類號(hào): | G16B40/20 | 分類號(hào): | G16B40/20;G16B20/00;G06K9/62 |
| 代理公司: | 太原榮信德知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 14119 | 代理人: | 楊凱;連慧敏 |
| 地址: | 030000 山西省*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 集成 特征 選擇 癌癥 甲基化 數(shù)據(jù) 分類 方法 | ||
1.一種基于集成特征選擇的癌癥甲基化數(shù)據(jù)分類方法,其特征在于:包括下列步驟:
S1、輸入甲基化位點(diǎn)的癌癥和正常樣本數(shù)據(jù)集,所述數(shù)據(jù)集中,每行表示被測個(gè)體,并被標(biāo)注為正常或者癌癥,每列表示特征位點(diǎn);
S2、數(shù)據(jù)預(yù)處理,濾除所述數(shù)據(jù)集中的各種缺失值;
S3、通過集成特征選擇方法來實(shí)現(xiàn)穩(wěn)固的差異甲基化位點(diǎn)的選取;
S4、基于穩(wěn)固的差異甲基化位點(diǎn)訓(xùn)練多分類器模型,根據(jù)每個(gè)分類器的預(yù)測結(jié)果進(jìn)行投票,得到最終的分類判別結(jié)果;
S5、輸出最終的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于集成特征選擇的癌癥甲基化數(shù)據(jù)分類方法,其特征在于:所述S2中數(shù)據(jù)預(yù)處理的方法為:包括下列步驟:
S2.1、查找數(shù)據(jù)中的缺失值,若原數(shù)據(jù)中存在缺失值,濾除包含該缺失值的列或者特征;
S2.2、對(duì)不含缺失值的數(shù)據(jù)進(jìn)行批次效應(yīng)的校正;
S2.3、濾除方差最小的位點(diǎn)集,通過計(jì)算位點(diǎn)在所有測得的樣本中甲基化值的方差,對(duì)所有位點(diǎn)按照方差從大到小進(jìn)行排序,然后舍去排在末尾的1/3左右的位點(diǎn)。
3.根據(jù)權(quán)利要求2所述的一種基于集成特征選擇的癌癥甲基化數(shù)據(jù)分類方法,其特征在于:所述S2.2中采用經(jīng)驗(yàn)貝葉斯EB方法消除批次效應(yīng)的影響。
4.根據(jù)權(quán)利要求1所述的一種基于集成特征選擇的癌癥甲基化數(shù)據(jù)分類方法,其特征在于:所述S3中集成特征選擇方法為:包括下列步驟:
S3.1、引入樣本多樣性,所述樣本多樣性通過對(duì)原始數(shù)據(jù)進(jìn)行等比列的多次隨機(jī)采樣,得到不同的樣本子集,然后在樣本子集上應(yīng)用特征選擇方法以獲得不同的特征位點(diǎn)集合;
S3.2、引入函數(shù)多樣性,即通過在同一個(gè)樣本子集上應(yīng)用不同的特征選擇方法以獲得不同的差異甲基化位點(diǎn)集合;
S3.3、采用多種特征選擇方法提取上述兩種差異位點(diǎn)集合,每一個(gè)樣本子集,得到上述兩個(gè)特征位點(diǎn)子集,取二者的并集,得到每個(gè)樣本子集對(duì)應(yīng)的特征子集,最后將所有樣本子集對(duì)應(yīng)的特征子集再求交集得到穩(wěn)固的差異位點(diǎn)集合。
5.根據(jù)權(quán)利要求1所述的一種基于集成特征選擇的癌癥甲基化數(shù)據(jù)分類方法,其特征在于:所述S4中得到最終的分類判別結(jié)果的方法為:包括下列步驟:
S4.1、根據(jù)集成特征選擇方法的結(jié)果,訓(xùn)練邏輯回歸,邏輯回歸分類器通過最大化似然函數(shù)并由sigmoid函數(shù)將輸出整合到關(guān)于{0,1}概率的分布,從而實(shí)現(xiàn)對(duì)樣本的劃分;
S4.2、通過支持向量機(jī)對(duì)于樣本的分類,所述支持向量機(jī)通過搜尋樣本中的支持向量,最大化兩類樣本的距離實(shí)現(xiàn)對(duì)樣本的劃分;
S4.3、通過隨機(jī)森林分類器對(duì)于樣本的分類,所述隨機(jī)森林分類器通過樹的結(jié)構(gòu),根據(jù)特征參數(shù)的取值大小,逐步實(shí)現(xiàn)對(duì)樣本的劃分;
S4.4、針對(duì)上述三種分類器的預(yù)測結(jié)果,通過投票的方式進(jìn)行整合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山西三友和智慧信息技術(shù)股份有限公司,未經(jīng)山西三友和智慧信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011329335.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





