[發明專利]基于RealifF的特征選擇方法在審
| 申請號: | 202011356846.0 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112488180A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 王紅濱;劉宜陶;何鳴;王勇;王念濱;周連科;崔琎 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 劉強 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 realiff 特征 選擇 方法 | ||
基于RealifF的特征選擇方法,涉及數據挖掘技術領域,針對傳統的去冗余方法是將一組冗余特征保留一個,這樣會造成損失信息的問題,本申請通過距離相關性系數找出冗余特征,解決冗余問題。傳統的簡單去冗余方法是將一組冗余特征保留一個,本申請通過自編碼器融合這些冗余特征而不是直接丟掉,解決了損失信息的問題。自編碼器是一種黑盒的結構,無法保證最后可以得到想要的特征,本申請通過多任務的方式,加上一路分類的任務,可以迫使自編碼器學到這一組冗余信息中更利于分類的特征,提升自編碼器學習到特征的質量。
技術領域
本發明涉及數據挖掘技術領域,具體為一種基于RealifF的特征選擇方法。
背景技術
Relief為一系列算法,最早由kira提出,后來擴展出ReliefF和RReliefF。最初的Relief運行效率比較高,效果也讓人滿意,所以得到了廣泛的應用,但是缺點在于只能解決兩類數據的分類問題,而ReliefF擴展成為可以處理多類問題,是被研究人員所公認的比較好的一種過濾式特征選擇方法。ReliefF的大致思路就是從訓練集L中隨機選擇一個樣本D,然后從和D同類的樣本中尋找m最近鄰樣本U,從其余各類的樣本中尋找m最近鄰樣本W,最后按照公式更新特征權重,根據權重降序排列,取前t個特征構成特征子集。權重會根據樣本對其同類和不同類特征的區分程度來確定,如果樣本D可以很好的區分不同類的特征,并且對于同類的特征可以得到相同的結果,那么就會被賦予一個高權重。但是ReliefF同樣存在問題,那就是沒有辦法解決存在冗余的特征的特征集。現在假設原始特征集L={b1,b2,b3...,bn},特征子集中包含的特征數t=6,根據ReliefF算法得出的權重降序排列前6位是b2,b3,b9,b4,b8,b1,按照算法,這些特征將構成最后的特征子集。但是根據ReliefF算法,冗余度很高的幾個特征就會得到相似的權重,如果這些冗余度很高的特征在我們的特征子集中就會很大的影響子集對原始特征集的代表性,也會直接的影響到最后的分類結果。也就是說,如果在選取特征的時候可以忽略那些冗余度高的特征,繼而順延去選取權重降序排列中的下一特征,會使得結果子集的質量有很大的提升。比如特征b2,b3,b9冗余度很高的話,那這三個特征將起不到原本權值前三的特征應該起到的作用。
發明內容
本發明的目的是:針對傳統的去冗余方法是將一組冗余特征保留一個,這樣會造成損失信息的問題,提出一種基于RealifF的特征選擇方法。
本發明為了解決上述技術問題采取的技術方案是:
基于RealifF的特征選擇方法,包括以下步驟:
步驟一:獲取原始特征集;
步驟二:將原始特征集中方差小于方差閾值的特征刪除,得到特征集M;
步驟三:根據特征集M構建距離相關性矩陣;
步驟四:將距離相關性矩陣中小于距離相關性矩陣閾值的特征進行融合,并將融合后的特征與距離相關性矩陣中不小于距離相關性矩陣閾值的特征組成特征集N;
步驟五:將特征集N中每個特征所對應的權重重置為0,即W(i)=0,i=0,1,2,...n;
步驟六:在特征集N中隨機選擇一個樣本O,然后找出與樣本O同類的K個近鄰Qj,j=1,2,...,k,再找出與樣本O不同類的K個近鄰Vj(c),c=1,2,...C,j=1,2,...k,其中C為類別數;
步驟七:利用Qj和Vj(c)對特征重置后的特征集N中特征的權重進行迭代更新,得到更新后的特征權重W(i),更新公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011356846.0/2.html,轉載請聲明來源鉆瓜專利網。





