[發明專利]基于MFA score和排除冗余的基因表達譜特征選擇方法在審
| 申請號: | 201410438783.1 | 申請日: | 2014-08-30 |
| 公開(公告)號: | CN104200135A | 公開(公告)日: | 2014-12-10 |
| 發明(設計)人: | 李建更;蘇磊;逄澤楠;李曉丹;張衛 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mfa score 排除 冗余 基因 表達 特征 選擇 方法 | ||
技術領域
本發明涉及生物信息學腫瘤基因數據處理技術領域,是一種針對腫瘤基因表達譜的特征選擇方法。?
背景技術
隨著生物信息學的不斷發展,大量的基因表達數據被獲取,特別是腫瘤的基因表達數據。用機器學習的方法對這些數據進行分析并獲得分類特征基因,有助于腫瘤早期診斷,近年來一直是生物信息學研究的熱點。由于腫瘤基因表達數據的維數一般是幾千甚至上萬,它會影響機器學習算法的效率,甚至降低學習的效果,這就是所謂的“維數災難”,特征選擇方法可以從成千上萬個基因中選擇出帶有較多分類信息的基因,這不但改善了學習的效率,提高了學習的精度,而且有重要的生物學意義,可以幫助人們尋找癌癥的致病基因,從基因表達的角度解釋腫瘤的成因。?
近些年來,很多特征選擇方法被提出,這些方法主要分為兩類:過濾器方法和包裝器方法,獨立于分類器的選擇那些帶有較多分類信息的過濾器特征選擇方法由于有運算速度快、可以處理占內存空間較大的數據等優點被廣泛采用,此類算法有:t-test,Fisher?score,Laplacian?score等,其中t-test、Fisher?score是有監督的算法,而Laplacian?score是無監督的算法。近年來有學者提出了基于MFA的特征選擇方法,即MFA?score,它是一種過濾器特征選擇方法,利用?MFA的準則來分別判定樣本的每一特征,每一特征都得到一個分值,根據分值大小來排列所有特征,最后選擇靠前的帶有較多類別信息的特征子集。MFA?score的優勢在于它們適用于任意空間分布的訓練樣本,尤其在樣本數目較少時,樣本的分布形狀不規則,這時它有很好的表現,MFA?score不用求解特征方程,算法的復雜度較小。然而腫瘤基因表達譜的特征冗余很高,這種方法不能排除其中的冗余,在一定程度上影響了分類效果。?
發明內容
本發明的目的在于針對現有技術中的不足,提供了一種基于MFA?score和排除冗余的基因表達譜特征選擇方法。針對腫瘤基因表達數據的高冗余這一特點,利用Pearson相關系數來判斷基因間的相關性,將高相關的基因即冗余基因排除,最終得到基因子集,進一步縮減了特征維數,提高了分類器的分類精度。本發明有助于腫瘤的早期診斷,可以幫助人們尋找癌癥的致病基因,從基因表達的角度解釋腫瘤的成因。?
為實現上述目的,本發明采用的技術方案實現步驟如下:?
1)構造腫瘤樣本的類內近鄰矩陣Ww和類間近鄰矩陣Wb。?
利用DNA芯片測定腫瘤基因表達譜,表達譜中n個樣本(n代表不同的患者)組成的集合可以表示為:X=[x1,x2,...,xn],?(i=1,2,...,n)代表一個有m個基因的樣本(n<<m)。腫瘤樣本集合還可以寫成X=[f1,f2,....,fm]T,(j=1,2,...,m)是一個基因在各個樣本中的表達值組成的向量。根據腫瘤樣本間的歐氏距離和類別?信息(其類別信息為有病、無病或腫瘤的亞型),對于每一個樣本,在與之同類的子集中選擇k1個近鄰,在與之不同類的子集中選擇k2個近鄰,這樣分別構造出類內近鄰矩陣Ww和類間近鄰矩陣Wb:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學;,未經北京工業大學;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410438783.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種加密鎖的自適應通訊方法
- 下一篇:基于道路轉角權重的最優路徑分析方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





