[發(fā)明專利]一種基于多步馬爾科夫轉移概率的無監(jiān)督特征選擇方法在審
| 申請?zhí)枺?/td> | 202010046654.3 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111310790A | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設計)人: | 閔艷;葉茂;簡玉琳 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多步馬爾科夫 轉移 概率 監(jiān)督 特征 選擇 方法 | ||
本發(fā)明公開一種基于多步馬爾科夫轉移概率的無監(jiān)督特征選擇方法,應用于機器學習、計算機視覺、數(shù)據(jù)挖掘等領域,針對現(xiàn)有技術中雖然有通過保留局部結構信息來進行無監(jiān)督特征選擇的方法,但這些方法大都忽略了數(shù)據(jù)點與非最近鄰點之間的關聯(lián)的問題;本發(fā)明在進行特征選擇時,獲取原始數(shù)據(jù)空間中數(shù)據(jù)點周圍的結構并拉近同一類數(shù)據(jù)點之間的距離,可以選擇出更相關的好的特征,從而在后續(xù)的分類預測等工作中取得更好的效果。
技術領域
本發(fā)明屬于機器學習、計算機視覺、數(shù)據(jù)挖掘等領域,特別涉及一種無監(jiān)督數(shù)據(jù)特征選擇技術。
背景技術
在機器學習、計算機視覺、數(shù)據(jù)挖掘等領域,隨著研究對象難度的增加,需要處理一些高維數(shù)據(jù),如文本數(shù)據(jù)、圖像數(shù)據(jù)和各種基因表達數(shù)據(jù)。在這種情形下,通過降低數(shù)據(jù)的維數(shù)有利于提高數(shù)據(jù)分析的效率和精確度。
處理高維特征有三種方法:特征提取、特征壓縮和特征選擇。特征提取通常采用主成分分析(PCA)、線性判別分析(LDA)等數(shù)學方法(如投影)將數(shù)據(jù)從高維特征空間映射到低維空間。特征壓縮是通過量化將原始特征值壓縮為0或1。特征選擇則是使用一些評估準則從原始特征空間中選擇特征子集。通常,通過特征選擇方法選擇的特征更易于解釋,此外,所選特征的識別能力不弱于通過提取或壓縮得到的特征。為了在不降低性能的前提下從高維數(shù)據(jù)中去除不相關的特征,特征選擇近年來受到了越來越多的關注。根據(jù)是否使用標簽信息,特征選擇方法可分為有監(jiān)督特征選擇、半監(jiān)督特征選擇和無監(jiān)督特征選擇。無監(jiān)督的特征選擇在沒有任何標簽信息的情況下更為困難和具有挑戰(zhàn)性,但在實際應用中更為有用,可以節(jié)省大量的人工成本。
為解決上述問題,現(xiàn)有的已知技術包括:
現(xiàn)有技術1:公開號為CN102982346A的發(fā)明申請《一種最小最大局部結構信息的特征選擇方法》,如圖1所示,其通過計算各個特征的最小最大局部結構信息的拉普拉斯指標MMLSr,依次選出d個最小拉普拉斯指標MMLSr對應的特征,構成特征子集。然而其工作重點是計算各個特征的拉普拉斯指標來獲取局部內(nèi)結構信息和局部間結構信息從而進行后續(xù)特征選擇工作,計算步驟過于復雜。且對于特征選擇而言,如何剔除“不好的”特征,即無關特征、冗余特征和噪聲等,這也十分的重要,因此該專利具有不完全性。
現(xiàn)有技術2:公開號為CN104408480A的發(fā)明專利《一種基于Laplacian算子的特征選擇方法》,如圖2所示為其分類精度結果隨不同正則化參數(shù)β值的變化曲線,該專利申請?zhí)峁┮环N既考慮到了樣本和類標簽之間的關聯(lián)又保留了樣本和樣本之間的局部相鄰結構信息的基于Laplacian算子的特征選擇方法;也就是說該方法需要數(shù)據(jù)集的標簽,是一種有監(jiān)督的特征選擇方法,然而沒有任何標簽信息的無監(jiān)督特征選擇更困難和更具挑戰(zhàn)性,并且在實際應用中更有用以及可以節(jié)省大量的人力成本。所以該專利申請也具有一定的局限性。
圖2中Heart_statlog為心臟病數(shù)據(jù)集;hepatitis為肝炎數(shù)據(jù)集;labor為勞工信息數(shù)據(jù)集;ionosphere為電離層數(shù)據(jù)集;credit為信用數(shù)據(jù)數(shù)據(jù)集;colic為腹絞痛數(shù)據(jù)集;colon_cancer為結腸癌數(shù)據(jù)集;c為c數(shù)據(jù)集。
發(fā)明內(nèi)容
為解決上述技術問題,本發(fā)明在流形學習和多步馬爾科夫的基礎上,提出一套可靠高效的無監(jiān)督特征選擇方法,突破了以往特征選擇僅僅是通過某種方法來保留原始數(shù)據(jù)的局部結構信息,忽略了數(shù)據(jù)點與其他非最近鄰數(shù)據(jù)點之間可能存在的關聯(lián)的局限性,實現(xiàn)了數(shù)據(jù)間聯(lián)系的獲取以及數(shù)據(jù)流形結構的保留,在技術上具有一定的超前性。
本發(fā)明采用的技術方案為:一種基于多步馬爾科夫轉移概率的無監(jiān)督特征選擇方法,包括:
S1、計算每個數(shù)據(jù)點到它周圍最近的k個數(shù)據(jù)點的一步轉移概率;
S2、構建關系矩陣,所述關系矩陣中的元素表示某數(shù)據(jù)點與任何其他n步可到達的數(shù)據(jù)點之間的測地距離關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010046654.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





