[發明專利]基于LLRFC和相關性分析去除冗余的特征選擇方法LLRFC score+在審
| 申請號: | 201610057637.3 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740653A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 李建更;李曉丹;張衛;王朋飛;李立杰;張巖 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 llrfc 相關性 分析 去除 冗余 特征 選擇 方法 score | ||
1.基于LLRFC和相關性分析去除冗余的特征選擇方法LLRFCscore+,該方法加入樣本類別信息,提出一種特征選擇方法LLRFCscore;它是一種有監督的過濾特征選擇方法,利用LLRFCscore的準則計算每一個特征基因對分類的貢獻程度;分數值越大,貢獻度越高,分類效果越好;根據分數值大小降序排列特征基因,最后選擇得分靠前(帶有較多類別信息)的特征基因序列;根據信息論,從一組數量為D的特征空間中選擇出數量為d(D>>d)的一組特征時,多數情況下,僅對每個單獨的特征按照一定的統計或者可分性判據進行排列,取排在前面的d個特征,并沒有考慮到各個特征之間復雜的相互關系,因此所取得的特征在多數情況下并不是最優特征集合,在仿真中甚至還有可能取到比較差的效果;當所選擇的特征集合中存在兩個相關度較高的特征基因時,若其中一個為特征基因,另一個必然也是;這樣,在特征子集維數一定的情況下,如果這兩個具有相似預測能力的特征基因同時被選中,會帶來一些不必要的冗余;不僅減少特征子集的信息攜帶量也增加了計算量;因此,在腫瘤基因表達譜數據中進行特征選擇時,盡量使特征序列中的關鍵基因間的冗余最小化;
采用動態相關性分析的策略對LLRFCscore選擇的特征序列進一步排除冗余,得到最優特征基因子集,提升分類精度;
其特征在于:利用芯片技術獲取的基因表達譜數據通成用數值矩陣的形式表示,其中行向量表示一個樣本中所有基因的表達,列向量表示某一特征基因在所有樣本中的表達,矩陣中元素表示基因在相應樣本條件下的表達水平;一個由n個樣本組成的基因表達矩陣,每個樣本中含有D個特征基因,矩陣表示如下:X=[X1,X2,...,Xn],其中Xi∈RD.(i=1,2,...,n)表示樣本i對應的所有基因表達;腫瘤樣本集合還能夠表示成另外的形式:X=F=[f1,f2,...,fD]T,fj∈Rn.(j=1,2,...,D)是由特征j在各個樣本(患者)中的表達所組成的特征向量;Y=[Y1,Y2,...,Yn]是原始高維數據通過流行學習算法LLE在低維的嵌入,Yi∈Rd.(i=1,2,...,n),d<<D;在監督流形學習方法中,樣本的類別標簽定義為:ci∈{1,2,...,nc},nc表示樣本類別數;根據腫瘤樣本間的歐氏距離和類別信息(即有病、正常或腫瘤的不同亞型),定義相對于樣本點Xi距離最近的k個樣本點為Xi的k近鄰區域;對于任意一個樣本Xi,在保證局部線性重構誤差最小的前提下,選擇k1個與之有相同標簽的近鄰樣本點,k2個與之不同標簽信息的近鄰樣本點,分別構建相應的類內圖、類間圖;因為每個訓練數據集的類別屬性不同,并且各個類別的樣本數目也大不相同,參數k1、k2的選擇取決于特定的數據集;根據經驗值和理論分析,k1的取值一般不大于min{nc}-1;對于腫瘤基因表達譜數據,k1一般在2-5之間選取,k2的設定相對復雜一些;在LLRFCscore算法中,由不同標簽構成的類間近鄰點類似于支持向量機中的支持向量;在固定參數k1的情況下通過SVM的學習,依據實驗結果,選取分類準確率最高的k值作為k2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610057637.3/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





