[發明專利]一種基因表達量特征選擇方法在審
| 申請號: | 202210193416.4 | 申請日: | 2022-03-01 |
| 公開(公告)號: | CN114566223A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 蓋凌云;時鴻濤 | 申請(專利權)人: | 青島農業大學 |
| 主分類號: | G16B40/20 | 分類號: | G16B40/20 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 杜陽陽 |
| 地址: | 266109 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因 表達 特征 選擇 方法 | ||
本發明提供了一種基因表達量特征選擇方法,涉及生物信息學和機器學習領域,以原始基因表達量數據集和候選特征子集對應的基因表達量數據集分別與類別向量之間的聯合互信息是否相等作為最大相關性的判斷條件,將最大條件互信息公式作為目標函數,迭代選擇滿足目標函數的基因特征來獲取具有最大相關性的候選特征子集,再通過刪除候選特征子集中的冗余特征,從而能夠篩選出同時具有最大相關性和最小冗余度的最小特征子集。
技術領域
本發明涉及生物信息學和機器學習技術領域,特別是涉及一種基于最大條件互信息的基因表達量特征選擇方法。
背景技術
近年來,癌癥已經成為影響人類健康的重要因素之一。癌癥的產生和發展與基因密切相關,將基因表達數據用于癌癥的早期診斷對癌癥的發現和治療具有重要的意義。
而基因表達數據通常包含數千個甚至上萬個特征,其中大多數特征之間會產生嚴重的多重共線性,從而影響了機器學習算法的性能和精度,這一現象也被稱為“維度災難”。特征選擇方法是解決數據降維問題的一種有效手段,但現有的特征選擇方法由于缺乏準確的相關性和冗余評估公式,因而其難以保證所選特征子集與目標分類之間同時具有最大相關性和最小冗余度,且對于高維數據集來說,現有的搜索方法,例如窮舉搜索、完全搜索、啟發式搜索以及隨機搜索等方法,存在計算量較大且搜索結果不理想的問題。
因此,亟需一種基因表達量特征選擇方法,以選擇出同時與目標分類具有最大相關性和最小冗余度特性且具有最少數量基因特征的最小特征子集。
發明內容
本發明的目的是提供一種基因表達量特征選擇方法,以選擇出同時與目標分類具有最大相關性和最小冗余度的最小基因特征子集。
為實現上述目的,本發明提供了如下方案:
一種基因表達量特征選擇方法,包括:
計算原始基因表達量數據集與腫瘤的類別向量之間的第一聯合互信息;
選取一候選特征子集,使得所述候選特征子集對應的基因表達量數據集與所述類別向量之間的第二聯合互信息等于所述第一聯合互信息,并且所述候選特征子集為所述原始基因表達量數據集對應的原始基因特征集的最小特征子集;
根據冗余特征判斷公式判斷所述候選特征子集中的每個基因特征是否為冗余特征;
將所有冗余的基因特征從所述候選特征子集中剔除,得到最優特征子集。
根據本發明提供的具體實施例,本發明公開了以下技術效果:
本發明提供了一種基因表達量特征選擇方法,以原始基因表達量數據集和候選特征子集對應的基因表達量數據集分別與類別向量之間的聯合互信息是否相等作為最大相關性的判斷條件,將最大條件互信息公式作為目標函數,迭代選擇滿足目標函數的基因特征來獲取具有最大相關性的候選特征子集,再通過刪除候選特征子集中的冗余特征,從而能夠篩選出同時具有最大相關性和最小冗余度的最小特征子集。
附圖說明
下面將對實施例中所需要使用的附圖作簡單地介紹。
圖1為本發明實施例1提供的一種基因表達量特征選擇方法的流程圖;
圖2為本發明實施例1中本發明方法與現有技術分別對應的特征選擇數量對比圖;
圖3為本發明實施例1中本發明方法與現有技術分別對應的檢測準確率對比圖;
圖4為本發明實施例1中本發明方法與現有技術分別對應的運行時間對比圖。
具體實施方式
下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
實施例1:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島農業大學,未經青島農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210193416.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:觸控顯示屏及其制作方法
- 下一篇:一種新型的汽車復合型導線的生產工藝





