[發明專利]一種高維不完整數據特征選擇方法有效
| 申請號: | 201710388939.3 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107220346B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 李玉諾;尹春福;王妍;楊鈞;李俊;吳陽;付永全 | 申請(專利權)人: | 榮科科技股份有限公司;遼寧大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 沈陽杰克知識產權代理有限公司 21207 | 代理人: | 羅瑩 |
| 地址: | 110027 遼寧省沈*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高維不 完整 數據 特征 選擇 方法 | ||
一種高維不完整數據特征選擇方法,涉及如下步驟:(1)判斷初始數據是否為完整數據;若為不完整數據,則轉到步驟(2);若為完整數據,則轉到步驟(3);步驟(2):假設現在有各個維度的數據,用1表示該數據項是完整的,用0表示該數據項是缺失的.計算每個維度的缺失率,接著計算缺失熵:依次算出每個維度的缺失熵;對結果進行加權平均;步驟(3):在高維數據中進行特征選擇時,通過比較原始數據矩陣的相關矩陣和隨機矩陣在奇異值上的差異,對相關矩陣進行去噪。得到去噪后的相關矩陣和選擇特征的數量,再進行奇異值分解,通過分解矩陣獲得特征與類的相關性,根據特征與類的相關性和特征之間冗余性完成特征選擇。
技術領域
本發明涉及一種高維不完整數據特征選擇方法,屬于機器學習,數據挖掘技術領域。
背景技術
隨著數據獲取技術的發展,高維數據廣泛應用在于社交網絡,圖像處理,生物醫學等領域中。然而在實際的數據的采集中,由于探測儀器的限制、數據敏感、樣本破損等原因會導致采集數據的不完整,從而形成高維不完整數據。對于不完整數據的預處理通常采用刪除和填補的方法,對于包含了大量冗余信息和噪聲的高維數據,通常先采用特征提取和特征選擇對其進行降維。根據特征子集評估策略的差異,可將特征選擇分為三類:Filter模型、Wrapper模型和Embedded模型。Filter模型僅依賴數據的內在特性來選擇特征,而不依賴任何具體的學習算法指導。Wrapper模型則需要一個預先設定的學習算法,將特征子集在其算法上的表現作為評估來確定最終的特征子集。Embedded模型則是在學習算法的目標分析過程中包含變量選擇,將此作為訓練過程的一部分。共同之處是這三種模型都是通過相關性度量來選擇特征,但是對于高維數據,得到的相關矩陣中會存在大量噪聲。
隨機矩陣理論(random matrix theory,RMT)通過比較隨機的多維序列統計特性,可以體現出實際數據對隨機的偏離程度,并揭示實際數據中整體關聯的行為特征。隨機矩陣理論是在原子物理中由Wigner,Dyson,Mehta等人發展而來,在物理學,通訊理論,金融等方面應用非常廣泛。Laloux(1999)等人研究了如何去掉金融相關系數矩陣的噪聲,Plerou(2002)等人詳細研究了相關矩陣的特征值、特征向量的分布。
本文以隨機矩陣理論為基礎,提出一種特征選擇方法,通過比較原始數據的相關矩陣和隨機數據的相關矩陣在奇異值上的差異,去除原始相關矩陣的噪聲,同時充分利用奇異值分解后的子矩陣來消除特征之間的冗余性,更好的實現特征選擇。又根據熵概率選擇,使這種方法能夠應用于不完整數據。在分類準確率和運行時間上表明了本方法的高效性。
發明內容
本發明針對現有技術的不足,本發明提供一種高維不完整數據特征選擇方法。
本發明的是通過下述技術方案實現的:一種高維不完整數據特征選擇方法,包括如下步驟:
(1)判斷初始數據是否為完整數據;若為不完整數據,則轉到步驟(2);若為完整數據,則轉到步驟(3);
(2)采用不完整矩陣計算方法處理數據,具體為:
(2.1)假設現在有各個維度的數據,用1表示該維度的值是完整的,用0表示該維度的值是缺失的,計算每個維度的缺失率,接著通過下式計算缺失熵:
其中pi是每個維度的缺失率,H(X)表示缺失熵;
(2.2)H(X)越大說明不確定性越高,缺失率越接近0.5,H(x)的極值為0.5;依次算出每個維度的缺失熵;
(2.3)對結果進行加權平均;
(2.4)對每一個維度X的缺失值,P(忽略)=Hmean(X),P(填補)=1-Hmean(X);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于榮科科技股份有限公司;遼寧大學,未經榮科科技股份有限公司;遼寧大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710388939.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





