[發明專利]一種含有缺失數據的數據保距性降維方法在審
| 申請號: | 201911059239.5 | 申請日: | 2019-11-01 |
| 公開(公告)號: | CN110852366A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 從銀川;謝鯤;歐陽與點;文吉剛 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙正奇專利事務所有限責任公司 43113 | 代理人: | 馬強;曾利平 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 含有 缺失 數據 保距性降維 方法 | ||
本發明公開了一種含有缺失數據的數據保距性降維方法,涉及數據處理技術領域。所述數據保距性降維方法,通過缺失數據矩陣使原始數據中的缺失部分不參與自動編碼器損失函數的計算,使自動編碼器能夠處理含有缺失數據的降維,且避免了缺失數據對自動編碼器造成的影響;同時借助于自動編碼器強大的自動學習能力,能夠有效地捕獲原始數據之間復雜的非線性關系,再通過約束更新損失函數中編碼器的權重矩陣,使降維處理具有保距性,最大程度地使降維后的低維數據保留了原始高維數據的分布信息,便于后續的數據處理,節省了數據處理時間和空間。
技術領域
本發明屬于數據處理技術領域,尤其涉及一種基于自動編碼器的含有缺失數據的數據保距性降維方法。
背景技術
隨著大數據時代的到來和電子設備的普及,產生了海量的高維數據,直接分析和處理高維數據通常需要較大的時間和空間開銷,降維作為一種將高維數據映射到低維空間并且保留原始數據信息的算法越發受到人們的青睞。應用降維算法如主成分分析(Principal Components Analysis,簡稱PCA)或者線性判別分析(Linear DiscriminateAnalysis,簡稱LDA)將高維數據降維,可以給后續的數據處理帶來巨大的便利。但是,現實中產生的數據大多都含有缺失數據,傳統的降維方法無法處理這些帶有缺失的數據。
保距性降維是指降維后的低維數據在一定程度上保持高維原始數據之間的歐式距離。現有的降維算法都具有保留高維數據信息的能力,但沒有顯示地保持降維的保距性。通常認為通過保距性降維保持原始數據的歐式距離可以保持原始數據的分布,使得降維后的數據最大程度地保存原始數據樣本點之間的信息。盡管傳統的保距性降維算法在數據處理過程中廣泛使用,但是傳統的保距性降維算法只采用線性模型,無法捕捉高維數據之間復雜的非線性信息。且實踐中的高維數據不僅具有復雜的非線性關系,通常還會出現數據某些維度數據缺失的情況,傳統的保距性降維方法也不能有效處理這些帶有缺失的數據。
2006年,Hinton和Salakhutdinov提出“Reducing the Dimensionality of Datawith Neural Networks”,將自動編碼器應用于數據降維。這類具有數據降維功能的自動編碼器是一種特別的全連接神經網絡,其網絡結構具有對稱結構且假設其輸出等于輸入。例如,設一個三層自動編碼器的輸入為輸出為其中,f為激活函數,w1,w2為自動編碼器的權重矩陣,b1,b2為自動編碼器的偏置,s表示批量的大小,自動編碼器的損失函數為自動編碼器采用后向傳播算法訓練,在訓練過程中更新權重和偏置使得損失函數的值達到最小,通過不斷的學習樣本數據,能夠捕捉到高維數據之間復雜的非線性信息。為了防止自動編碼器學習一個恒等函數而不是尋找數據之間的結構信息的情況出現,通常會將自動編碼器中隱藏層節點個數限制為遠小于輸入層節點個數。在訓練完成后,使用自動編碼器的編碼器對數據降維,編碼器的輸出為降維后的數據。
雖然自動編碼器具有學習高維數據復雜非線性結構的能力,但自動編碼器無法直接處理有缺失數據。通常遇到缺失數據影響降維,會采用數據填充的方法,在缺失位置填該維特征的均值或者眾數,但是填補均值或眾數缺乏合理性,會影響降維效果以及之后的數據分析等。同時,自動編碼器沒有顯示地約束降維后保距。
隨機投影(Random Projection,簡稱RP)是一種線性的具有保距性的降維思想,設待降維數據隨機矩陣降維后降維前后的數據保距即滿足:
(1-α)||xl-xt||≤||cl-ct||≤(1+α)||xl-xt||
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911059239.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:小型移動安全檢測設備
- 下一篇:一種腰帶式防抖動胰島素注射器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





