[發(fā)明專利]一種基因表達量特征選擇方法在審
| 申請?zhí)枺?/td> | 202210193416.4 | 申請日: | 2022-03-01 |
| 公開(公告)號: | CN114566223A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計)人: | 蓋凌云;時鴻濤 | 申請(專利權(quán))人: | 青島農(nóng)業(yè)大學(xué) |
| 主分類號: | G16B40/20 | 分類號: | G16B40/20 |
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 杜陽陽 |
| 地址: | 266109 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基因 表達 特征 選擇 方法 | ||
1.一種基因表達量特征選擇方法,其特征在于,包括:
計算原始基因表達量數(shù)據(jù)集與腫瘤的類別向量之間的第一聯(lián)合互信息;
選取一候選特征子集,使得所述候選特征子集對應(yīng)的基因表達量數(shù)據(jù)集與所述類別向量之間的第二聯(lián)合互信息等于所述第一聯(lián)合互信息,并且所述候選特征子集為所述原始基因表達量數(shù)據(jù)集對應(yīng)的原始基因特征集的最小特征子集;
根據(jù)冗余特征判斷公式按照基因特征被選擇順序的倒序,逐一判斷候選特征子集中的每個基因特征是否為冗余特征;
將所有冗余的基因特征從所述候選特征子集中剔除,得到最優(yōu)特征子集。
2.根據(jù)權(quán)利要求1所述的基因表達量特征選擇方法,其特征在于,在所述計算原始基因表達量數(shù)據(jù)集與腫瘤的類別向量之間的第一聯(lián)合互信息之前,還包括:對所述原始基因表達量數(shù)據(jù)集中非離散值的基因表達量向量離散化處理;將離散化處理后的原始基因表達量數(shù)據(jù)集作為新的原始基因表達量數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的基因表達量特征選擇方法,其特征在于,所述候選特征子集的選取過程具體包括:
設(shè)置所述候選特征子集的初始值為空集;
根據(jù)最大條件互信息公式從所述原始基因特征集減去當(dāng)前的所述候選特征子集后的集合中選擇具有最大條件互信息的基因特征;
將所述具有最大條件互信息的基因特征放入當(dāng)前的所述候選特征子集中;
判斷當(dāng)前的所述候選特征子集對應(yīng)的基因表達量數(shù)據(jù)集與所述類別向量之間的第二聯(lián)合互信息是否等于所述第一聯(lián)合互信息;
若是,則將當(dāng)前的所述候選特征子集作為最終的候選特征子集;
若否,則返回“根據(jù)最大條件互信息公式從所述原始基因特征集減去當(dāng)前的所述候選特征子集后的集合中選擇具有最大條件互信息的基因特征”步驟。
4.根據(jù)權(quán)利要求3所述的基因表達量特征選擇方法,其特征在于,所述最大條件互信息公式的表達式為:
其中,fmax表示具有最大條件互信息的基因特征;F={f1,f2,…,fn},表示與原始基因表達量數(shù)據(jù)集DF對應(yīng)的原始基因特征集;FS={fs1,fs2,…,fsn},表示候選特征子集;表示候選特征子集FS對應(yīng)的基因表達量數(shù)據(jù)集;fi是原始基因特征集F減去候選特征子集FS后的集合中的基因特征;表示基因特征fi所對應(yīng)的基因表達量;C表示所述類別向量。
5.根據(jù)權(quán)利要求1所述的基因表達量特征選擇方法,其特征在于,所述冗余特征的判斷公式為:
其中,表示候選特征子集FS對應(yīng)的基因表達量數(shù)據(jù)集;是Fs中當(dāng)前被判斷的基因特征fsi對應(yīng)的表達量向量;C表示所述類別向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于青島農(nóng)業(yè)大學(xué),未經(jīng)青島農(nóng)業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210193416.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





