[發明專利]基因微陣列數據的分類器模型生成方法有效
| 申請號: | 201410025412.0 | 申請日: | 2014-01-16 |
| 公開(公告)號: | CN103793600B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 楊利英;劉志敏;李菲;袁細國;張軍英;黎成;殷黎洋 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00;G06F19/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 獨立 分量 分析 線性 判別分析 癌癥 預測 方法 | ||
技術領域
本發明涉及一種基因微陣列數據的分類器模型生成方法,屬于機器學習和醫療診斷的交叉技術領域。
背景技術
基因微陣列又稱基因陣列或基因芯片,是一塊帶有基因微陣列涂層的特殊玻璃片。在面積只有數平方厘米的芯片上安裝數千甚至數萬個核酸探針,將大量預先設計好的互補脫氧核糖核酸或者寡核苷酸在芯片上做成點陣列形式,與樣品中同源核酸分子進行雜交,即可獲得關于基因序列和基因表達信息的微陣列數據。
研究發現,癌癥的發生與遺傳基因之間存在很大的關聯性,分析基因微陣列數據中包含的遺傳信息為癌癥的預測診斷提供了新的方法途徑。然而對基因微陣列數據的分類預測面臨著四大挑戰。第一,基因微陣列數據具有很高的基因特征維度,通常有幾千甚至上萬維,同時這些基因特征之間又有非常復雜的關系。第二,復雜的實驗和昂貴的費用導致基因微陣列數據具有相對較少的樣本,通常只有幾十個樣本,這與巨大的基因特征數目構成矛盾。第三,基因微陣列數據具有很高的噪聲。第四,基因微陣列數據中隱藏著大量有用信息,難以被發覺利用。
鑒于基因微陣列數據高維度、高噪音、高相關、小樣本的特點,本發明在過濾處理后的基因微陣列數據上,結合獨立分量分析和線性判別分析兩種方法,實現對基因微陣列數據的分類預測。
過濾技術也稱為基因排序技術,是根據某一種策略為每個基因的重要程度進行打分,然后將分數由高到低進行排序,最后選取一定數量高分值的基因作為疾病相關基因。過濾技術速度快、時間復雜度低,對高維高噪的基因微陣列數據而言,是一種有效的預處理技術。
獨立分量分析是一種用來發掘隨機變量中隱含因子的統計方法,能夠發現數據中獨立并且非高斯分布的隱含獨立分量,發現基因微陣列數據中隱含的遺傳信息。
線性判別分析是尋找數據的最佳投影方向,通過使類間散布矩陣最大化、類內散布矩陣最小化,從而最大化類別可分性。由于基因微陣列數據高維小樣本的特點,導致最佳投影方向的求解過程中涉及的類內散布矩陣嚴重奇異,逆矩陣無法求解。為解決這一技術難題,本發明采用偽逆技術和基于樣本空間的線性判別分析方法,將最佳投影方向的求解過程由基因特征空間轉換到樣本空間,大大降低了矩陣的奇異程度,解決了求逆困難的技術難題。
發明內容
本發明的目的在于克服由基因微陣列數據高維度、高噪音、高相關、小樣本導致的難以精確高效進行癌癥預測的技術難題,從挖掘隱含的基因信息和降低基因特征維度出發,提出了一種結合獨立分量分析和線性判別分析兩種技術的癌癥預測方法,在降低基因特征維度、除去冗余噪聲的同時,充分挖掘特征之間的隱含信息,提高了癌癥預測的精度和效率。
為了實現上述目的,本發明的技術方案如下。
一種基因微陣列數據的分類器模型生成方法,具體包括以下步驟:
(1)用過濾技術預處理基因微陣列數據,集成了四種策略,即學生檢測分析、熵分析、切諾夫界分析以及無偏統計分析,根據每一種策略為每個基因的重要程度進行打分評估,然后根據分數的高低進行排序,最后選擇一定數量分值高的基因作為對樣本分類預測貢獻大的基因,實現特征的預篩選;
(2)將預處理后的基因微陣列數據用獨立分量分析技術進行變換以挖掘數據中的隱含信息,得到獨立分量集;
(3)應用線性判別分析技術處理獨立分量集,將基因微陣列數據投影到具有最佳可分性的低維空間;
(4)利用投影后的基因微陣列數據訓練最近鄰分類器,生成分類器模型。
該發明的有益效果在于:(1)從技術層面看,本發明采用獨立分量分析方法對基因微陣列數據進行變換,充分挖掘基因之間的隱含信息;在線性判別分析處理過程中,通過由基因特征空間向樣本空間的投影變換以及采用偽逆技術,解決了基因微陣列數據超高基因特征維度導致的求逆困難的技術問題。(2)從性能層面看,本發明在對基因微陣列數據有效降維的同時提升了預測準確性,提高了預測效率。
附圖說明
圖1是基因芯片生產制作及分析過程簡圖。
圖2是本發明實施例中所用預測方法流程圖。
具體實施方式
下面結合附圖和實施例對本發明的具體實施方式進行描述,以便更好的理解本發明。
實施例
圖1是基因芯片生產制作及分析過程簡圖。圖2是本發明實施例中所用預測方法流程圖。
參照圖2,本發明實施例中的基因微陣列數據的分類器模型生成方法,具體實現步驟如下:
(1)用過濾技術預處理基因微陣列數據:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410025412.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





