[發明專利]一種嵌入式多類別屬性標簽動態特征選擇算法在審
| 申請號: | 201710222600.6 | 申請日: | 2017-04-06 |
| 公開(公告)號: | CN106991447A | 公開(公告)日: | 2017-07-28 |
| 發明(設計)人: | 黃金杰;孔慶達;潘曉真 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 嵌入式 類別 屬性 標簽 動態 特征 選擇 算法 | ||
技術領域
本發明涉及模式識別領域,具體是一種嵌入式多類別屬性標簽動態特征選擇方法。
背景技術
傳統互信息度量算法因其在高維屬性數據處理過程中具有運算速度快、效率比較高等優點,被廣泛用于特征維度約簡算法中。但隨著科學技術的迅速發展,很多技術領域比如計算機網絡通信、生化醫學工程都朝著多類別屬性標簽數據類型方向發展。多標簽分類問題就是根據多標簽數據的類型特點,構建相應的分類模型,并根據判別準則對未知數據的類別屬性進行判斷,將樣本數據同時劃分到多個類別標簽中。單一標簽屬性分類問題和多標簽屬性分類問題的根本區別是單一標簽屬性分類問題樣本數據只能屬于一個類別標簽,而多標簽屬性的分類問題樣本數據可以屬于多個類別標簽,這十分符合現階段信息數據高度發展的特點。因此得到了廣泛關注。
多標簽屬性的分類與傳統的單一的標簽屬性分類一樣,多標簽屬性分類問題也同樣面臨著“維度災難”問題,“維度災難”也同樣嚴重影響著多標簽屬性分類器的分類能力。特征屬性的“降維技術”可以降低特征屬性的維度,提高分類器的分類準確率,在單一的標簽屬性分類問題中適用的同時,多標簽屬性分類問題中也同樣可以使用特征屬性的這種技術,以達到屬性約簡的效果。特征“降維”技術大體上一般分為特征選擇和特征提取兩個方面,特征選擇根據其評價準則的不同分為,過濾式、包裹式、嵌入式。本發明主要研究多標簽特征選擇問題。
多標簽特征選擇算法現階段存在兩種基本的發展方向:一方面是數據轉換的算法方向,一方面是算法適應方向。基于數據轉換的特征選擇算法研究是將所標簽數據進行轉化,轉化為單一標簽類別屬性,多次運用單一標簽的特征選擇算法以達到多標簽特征選擇的目的。基于算法適應的特征選擇算法研究是將單一標簽的特征選擇算法進行變形與算法改進,使其適應多標簽屬性的特征選擇算法。現階段的常見算法有基于數據轉化的SVM特征選擇算法,KNN算法,這些算法沒有考慮到標簽屬性內部的相關關系,基于互信息的特征選擇算法可以依據信息論中互信息的相關知識很好的分析屬性之間的相關性關系。但是常用來衡量兩變量之間的相互關系的互信息的估算方法仍未足夠的有效,僅考慮特征與類別之間的相互關系以及特征與已選特征之間的相互關系,沒有將隨著特征被選擇樣本數據被不斷被確定,信息熵的估算值在不斷變化的動態過程表現出來。
基于以上所考慮的問題,本發明提出了一種嵌入式多類別屬性標簽動態特征選擇算法(ML-DIFS),該算法通過互信息計算,不但考慮特征屬性與標簽屬性之間的相互關系還考慮特征屬性之間的相關性和冗余性,同時還考慮到多標簽屬性內部,標簽屬性與標簽屬性之間的相互關系。提出的嵌入式動態多標簽特征選擇算法,通過嵌入的分類器將已識別的樣本數據進行剔除,以此保證信息熵估算的準確性、實時性。
發明內容
本發明的目的在于提供一種基于嵌入式多類別屬性標簽動態特征選擇方法,以解決上述背景技術中提出的問題;為實現上述目的,本發明提供如下技術方案:具體是一種基于嵌入式多類別屬性標簽動態特征選擇方法包括以下步驟:
首先介紹傳統基于互信息的特征選擇方法。
1.數據集合預處理
當今在現實世界中數據庫極其容易受到噪聲數據、空缺數據、以及不一致數據的侵擾,現階段有大量的數據預處理技術,大體上可以分為數據清理、數據集成、數據變換和數據規約技術。數據清理可以清除數據中噪聲數據、糾正不一致,自行填補樣本數據的缺失數據,數據變換(數據規范化)可以改進涉及距離度量的算法的精度和有效性。比如人們希望數據滿足某種特定的數據分布,或者希望將每個數據特征映射到某一段特定的數據區間內,都是需要進行數據變換。對于本文而言數據集合的預處理主要分一下幾個部分:第一將數據集合中的噪聲數據和不一致數據空缺數據進行處理。第二將數據集中與分類完全不相關的屬性數據進行刪除。第三將屬性數據進行范數歸一化處理使范數歸一化為1,則有:
2.互信息的相關知識
特征選擇的選擇目標是選擇出對于分類最有價值的特征屬性,特征選擇中關鍵性需要解決的問題是度量問題,度量問題要考慮屬性集與類別標簽之間的相關性關系、屬性集和屬性集的冗余性關系、以及標簽屬性集內部的相關關系。因此針對這種相互關系問題討論,選擇信息論中的互信息作為度量標準來分析屬性間的相關性。下面介紹一下信息論中相關理論和運算規則。
信息熵是信息論理論中至關重要的概念,信息熵是表征變量的一種不確定程度,目的是表述信息含量的多少。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710222600.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種互信息的組策略嵌入式動態特征選擇方法
- 下一篇:一種人像比對處理方法





