[發(fā)明專利]基于MFA score和排除冗余的基因表達譜特征選擇方法在審
| 申請?zhí)枺?/td> | 201410438783.1 | 申請日: | 2014-08-30 |
| 公開(公告)號: | CN104200135A | 公開(公告)日: | 2014-12-10 |
| 發(fā)明(設(shè)計)人: | 李建更;蘇磊;逄澤楠;李曉丹;張衛(wèi) | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 北京思海天達知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 mfa score 排除 冗余 基因 表達 特征 選擇 方法 | ||
1.基于MFA?score和排除冗余的基因表達譜特征選擇方法,其 特征在于:
本發(fā)明采用的技術(shù)方案實現(xiàn)步驟如下,
1)構(gòu)造腫瘤樣本的類內(nèi)近鄰矩陣Ww和類間近鄰矩陣Wb;
利用DNA芯片測定腫瘤基因表達譜,表達譜中n個樣本,n代表 不同的患者,組成的集合可以表示為:X=[x1,x2,...,xn], (i=1,2,...,n)代表一個有m個基因的樣本(n<<m);腫瘤樣本 集合還可以寫成X=[f1,f2,....,fm]T,(j=1,2,...,m)是一個基因在各 個樣本中的表達值組成的向量;根據(jù)腫瘤樣本間的歐氏距離和類別信 息,其類別信息為有病、無病或腫瘤的亞型,對于每一個樣本,在與 之同類的子集中選擇k1個近鄰,在與之不同類的子集中選擇k2個近 鄰,這樣分別構(gòu)造出類內(nèi)近鄰矩陣Ww和類間近鄰矩陣Wb:
Nk1(xi)表示在與xi同類的樣本中k1個近鄰組成的集合,Pk2(xi)表示 在與xi不同類的樣本中k2個近鄰組成的集合;
2)計算得出腫瘤樣本類間拉普拉斯矩陣Lb和類內(nèi)拉普拉斯矩陣 Lw;
其中Lb=Db-Wb,Db是一個對角矩陣,對角元素為Wb的列元素之 和或行元素之和;Lw=Dw-Ww,Dw是一個對角矩陣,對角元素為Ww的列元素之和或行元素之和;
3)由MFA?score算法得出基因序列;
由MFA?score評價基因的函數(shù):Score(fj)來計算每一個基因 (j=1,2,...,m)的分數(shù),然后根據(jù)分數(shù)從大到小對基因進行排序, 得到基因序列:[F1,F2,...,Fm];
4)排除冗余,得到基因子集;
兩個基因的Pearson相關(guān)系數(shù)為:
因而可以用ρij=|ρ(fi,fj)|來衡量兩個基因的相關(guān)性;首先取出基因序 列的第一個基因加入基因子集Φ,再取出第二個基因計算ρ12,如果 ρ12>σ,0<σ<1,直接取出第三個基因計算ρ13;如果ρ12<σ,將 第二個基因加入特征子集Φ,再取出第三個基因計算ρ13,第三個以 后的每個基因都要和基因子集中的所有基因計算ρij,只要有一個ρij大于σ就直接取出下一個判斷,如果都小于σ,則將其加入基因子集 再取出下一個進行判斷,直到基因子集Φ的大小達到預(yù)定個數(shù)為止。
2.根據(jù)權(quán)利要求1所述的基于MFA?score和排除冗余的基因表達 譜特征選擇方法,其特征在于:采用網(wǎng)站http://www.gems-system.org 上的肺癌數(shù)據(jù)集,它的特點如下表所列:
表1??Lung?Cancer 基因數(shù):12600
將數(shù)據(jù)隨機二等分,一半分為訓(xùn)練集,用于特征選擇,然后用支持向 量機在另一半的測試集上測試,得出分類準確率,這樣分得的訓(xùn)練集 有103個樣本,測試集100個樣本;
1、特征選擇:
1)構(gòu)造類內(nèi)近鄰矩陣Ww和類間近鄰矩陣Wb;
Lung?Cancer訓(xùn)練集的103個樣本組成的集合可以表示為: X=[x1,x2,...,x103],矩陣的大小為12600×103;樣本集合還可以寫成 X=[f1,f2,....,f12600]T,fj是一個基因在各個樣本中的表達值組成的向量; 根據(jù)樣本間的歐氏距離和類別信息,對于每一個樣本,在與之同類的 子集中選擇k1=2個近鄰,在與之不同類的子集中選擇k2=25個近鄰, 這樣分別構(gòu)造出類內(nèi)近鄰矩陣Ww(103×103)和類間近鄰矩陣 Wb(103×103):
N2(xi)表示在與xi同類的樣本中2個近鄰組成的集合,P25(xi)表示 在與xi不同類的樣本中25個近鄰組成的集合;
2)計算得出類間拉普拉斯矩陣Lb和類內(nèi)拉普拉斯矩陣Lw;
其中Lb=Db-Wb,Db是一個對角矩陣,對角元素為Wb的列元素 之和或行元素之和;Lw=Dw-Ww,Dw是一個對角矩陣,對角元素為Ww的列元素之和或行元素之和;
3)由MFA?score算法得出基因序列;
由MFA?score評價基因的函數(shù):Score(fj)來計算每一個基因 (j=1,2,...,12600)的分數(shù),然后根據(jù)分數(shù)從大到小對基因進行 排序,得到基因序列:[F1,F2,...,F12600];
4)排除冗余,得到基因子集;
兩個基因的Pearson相關(guān)系數(shù)為:
因而可以用ρij=|ρ(fi,fj)|來衡量兩個基因的相關(guān)性;首先取出基因序 列的第一個基因加入基因子集Φ,再取出第二個基因計算ρ12,如果 ρ12>σ(為一個閾值,σ=0.9),直接取出第三個基因計算ρ13;如果 ρ12<σ,將第二個基因加入特征子集Φ,再取出第三個基因計算ρ13, 第三個以后的每個基因都要和基因子集中的所有基因計算ρij,只要 有一個ρij大于σ就直接取出下一個判斷,如果都小于σ,則將其加 入基因子集再取出下一個進行判斷,直到基因子集Φ的大小達到70 為止;這樣就從眾多基因中選出了70個基因;
2、訓(xùn)練和測試
經(jīng)過特征選擇,訓(xùn)練集和測試集變?yōu)閄train(70×103)和Xtest(70×103); 取前i個基因得到X'train(i×103)和X'test(i×103),用Matlab中l(wèi)ibsvm工具箱的 “svmtrain”函數(shù)對X'train進行訓(xùn)練,然后用libsvm工具箱的“svmpredict” 函數(shù)對X'test進行測試,得到選擇i個基因時的分類準確率,像這樣,i取 1~70便可以得到對應(yīng)于基因數(shù)為1到70的分類準確率曲線;
將上述過程重復(fù)25次,得到準確度的平均值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué);,未經(jīng)北京工業(yè)大學(xué);許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410438783.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建?;蚍抡?,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





