[發(fā)明專利]一種改進的基于Markovblanket紅外光譜特征選擇算法在審
| 申請?zhí)枺?/td> | 201710791401.7 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107577457A | 公開(公告)日: | 2018-01-12 |
| 發(fā)明(設計)人: | 呂子敬;韓順利;張志輝;劉磊;張鵬 | 申請(專利權)人: | 中國電子科技集團公司第四十一研究所 |
| 主分類號: | G06F8/30 | 分類號: | G06F8/30 |
| 代理公司: | 北京天奇智新知識產權代理有限公司11340 | 代理人: | 陳永寧 |
| 地址: | 266000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 基于 markovblanket 紅外 光譜 特征 選擇 算法 | ||
技術領域
本發(fā)明屬于紅外光譜特征選擇技術領域,尤其涉及的是一種改進的基于Markovblanket紅外光譜特征選擇算法。
背景技術
在當今的信息化時代,信息技術日新月異,計算機應用不斷更新,紅外光譜數(shù)據(jù)集的規(guī)模也就隨之而不斷擴大,然而,由于光譜數(shù)據(jù)集中往往存在著大量的冗余信息,這些冗余信息對機器學習算法的執(zhí)行效率產生了重要的影響,去除光譜數(shù)據(jù)集中的冗余信息就成為了特征選擇算法所要解決的關鍵問題。特征選擇算法的應用領域非常廣泛,最突出的就是應用在物質分析領域,例如:特征選擇算法可應用于紅外光譜分析儀的紅外光譜特征提取的過程,此算法能夠更加準確的選擇出原始光譜的目標信息,刪除冗余信息,為后續(xù)準確的進行物質成分分析提供了強有力的保障。Filter型特征選擇算法具有計算代價小、效率高、適用范圍廣的特點。目前,國內外學者所研究的很多高效Filter型特征選擇算法普遍存在的一個問題是一些作為特征集具有較強的表達特性,但就其本身而言具有較弱表達特性的特征在選擇過程中會被遺漏。其主要原因是:這些特征選擇算法及其采用的信息度量方法忽略了特征的內部相關性。綜上考慮,提出了改進的基于Markovblanket紅外光譜特征選擇算法(MBDWFS)。
在現(xiàn)有技術中,論文“光譜數(shù)據(jù)挖掘中的特征提取方法”(天文學進展,第30卷第1期,第94-105頁,2012年2月)介紹了一種光譜特征提取的方法——主成分分析法(PCA),該方法將已有的眾多指標進行分解、重組,形成一系列線性無關的綜合指標,并按照它們反映原始信號所蘊含信息的能力從高到低進行排序。在該文獻中,作者采樣一批不同天體的觀測數(shù)據(jù),構造該觀測數(shù)據(jù)的協(xié)方差矩陣,然后采用該協(xié)方差矩陣的無偏估計進行PCA分析,獲取該矩陣的所有特征值和其對應的特征向量,最后依據(jù)累積方差貢獻率篩選出最優(yōu)的特征空間,這樣達到了數(shù)據(jù)壓縮的目的,以利于高效的計算,并抑制噪聲等干擾因素對物質分析結果的不利影響。缺點:現(xiàn)有技術在進行光譜的特征選擇過程中遺漏掉了一些重要信息,這樣會影響到后續(xù)物質分析的準確性。
因此,現(xiàn)有技術存在缺陷,需要改進。
發(fā)明內容
本發(fā)明所要解決的技術問題是針對現(xiàn)有技術的不足,提供一種改進的基于Markovblanket紅外光譜特征選擇算法。
本發(fā)明的技術方案如下:
一種改進的基于Markovblanket紅外光譜特征選擇算法,其中,包括以下步驟:
步驟1:計算候選特征集S中所有特征fn與類標簽C的相關性度量值SU,找出SU最大的值作為初始權重w(f),并把SU值最大的特征f加入到已選特征集W中,刪除候選特征集S中的此特征;
步驟2:以新加入到已選特征集W的特征f作為條件計算所有特征fn的條件相關性度量值CSU的值,找出初始權重w(f)與CSU相乘后的最大值,并把該值作為新的權重,同時把新的最大權重值對應的特征f選入已選特征集W中,并將該特征從候選特征集S中刪除;
步驟3:運用近似MarkovBlanket刪除已選特征集W中冗余性較高的特征,直到候選特征集S為空,從而獲取到最優(yōu)特征空間Sbest。
采用上述方案,不僅可以去掉紅外光譜特征原始空間中的無關和冗余特征,而且能夠更好的保留內部成員相互關聯(lián)的改進的基于Markovblanket紅外光譜特征選擇算法。本發(fā)明更好的刪除了紅外光譜原始空間中的無關和冗余特征,并且不會遺漏掉重要信息,更好的保留了內部成員的相互關聯(lián),為后續(xù)的物質匹配提供了良好技術保障。
附圖說明
圖1為本發(fā)明算法與FCBF﹑ID3以及ReliefF三種算法在DNA_ALL上的平均準確率曲線圖。
圖2為本發(fā)明算法與FCBF﹑ID3以及ReliefF三種算法在Kr-vs-kp上的平均準確率曲線圖。
圖3為本發(fā)明算法與FCBF﹑ID3以及ReliefF三種算法在Lung_Cance日上的平均準確率曲線圖。
圖4為本發(fā)明方法流程圖。
具體實施方式
以下結合附圖和具體實施例,對本發(fā)明進行詳細說明。
實施例1
為了克服現(xiàn)有技術的缺陷,本發(fā)明提出的新的方法,如圖4所示,具體步驟描述如下:
步驟1:計算候選特征集S中所有特征fn與類標簽C的相關性度量值SU,找出SU最大的值作為初始權重w(f),并把SU值最大的特征f加入到已選特征集W中,刪除候選特征集S中的此特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第四十一研究所,未經(jīng)中國電子科技集團公司第四十一研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710791401.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種客車底架前端緩沖機構
- 下一篇:側圍外板





