[發明專利]基于深度流形變換網絡的高維數據處理方法在審
| 申請號: | 202110315106.0 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN113011508A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 李子青;吳立榮;臧澤林 | 申請(專利權)人: | 西湖大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 無錫市匯誠永信專利代理事務所(普通合伙) 32260 | 代理人: | 李珍珍 |
| 地址: | 310024 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 流形 變換 網絡 數據處理 方法 | ||
本申請提出了一種基于深度流形變換網絡的高維數據處理方法,該方法包括:獲取輸入空間;將輸入空間的維度通過第一非線性變換降低到隱空間,將隱空間的維度通過第二非線性變換降低到嵌入空間;在輸入空間與隱空間之間施加雙向散度損失,和/或在隱空間與嵌入空間之間施加雙向散度損失,和/或在輸入空間與嵌入空間之間施加雙向散度損失,使第一非線性變換、第二非線性變換保持結構不變;在隱空間中對輸入空間的數據進行聚類,在嵌入空間中可視化降維后的數據。通過本發明,將雙向散度損失施加在任何兩層間保證網絡的局部平滑,防止降維導致的原始數據中的幾何或拓撲結構破壞,造成信息損失,使最后聚類的效果變差。
技術領域
本申請涉數據處理技術領域,特別是涉及基于深度流形變換網絡的高維數據處理方法。
背景技術
高維數據分析包括三個基本任務:數據降維、聚類和可視化。
經典的聚類算法,如K均值聚類通過測試所有K值的聚類效果,分析聚類結果的類內相似度、類間相似度,從大量聚類結果中選擇最優聚類效果對應的k 值。同理,基于高斯混合模型的聚類和譜聚類也是通過一些定義在高維輸入空間中的距離或相似性度量做聚類。然而,由于高維數據固有非歐幾里得特性,即費歐幾里得數據排列不整齊,對于該數據的某個點,難以定義其鄰節點,或是不同節點的鄰節點的數量不同。因此,當這些上述常見的聚類算法被應用于高維數據時,面對結構分布復雜的數據,聚類的性能一般非常差。
為了處理這個問題,有些方法首先利用主成分分析等數據降維方法將數據從高維輸入空間降維到一個較低維度的隱空間,然后再在這個較低維度的隱空間中運行經典的聚類算法。然而,此時數據降維和聚類是兩個完全分離的過程,數據降維的過程中可能會破壞原始數據中的幾何或者拓撲結構,造成信息的損失,這反而會使聚類的效果變差。
T-SNE和UMAP是目前最流行的兩個非線性的數據可視化方法。這兩個方法都是首先將輸入空間中樣本點之間的歐氏距離變換為低維嵌入空間中的相似度,然后再通過最小化KL散度或者交叉熵形式的成本函數來找到一個合適的低維嵌入,進而實現數據的可視化。T-SNE和UMAP的缺陷有:(1)它們在數據降維的過程中可能會破壞原始數據中的幾何或者拓撲結構,造成信息的損失;(2) 它們可能會造成one-to-many的映射,同一個樣本點降維后被映射為多個不同的值;(3)它們都是非深度的方法,采取直接優化嵌入的方式,而非優化網絡參數,難以與現有的深度學習技術相結合。
數據降維、聚類和可視化是三個與高維數據分析密切相關的基本任務,然而目前這三個任務一般都是獨立完成的,這不僅會影響它們的性能,也很容易使得各個任務之間出現不一致,沒有辦法真實地揭示高維數據內在的幾何和拓撲信息,導致數據分析時很容易得出錯誤,得出誤導性的結論。
綜上,針對現有技術中高維數據分析中存在的上述問題,目前尚未得到有效的解決方案。
發明內容
本申請實施例提供了基于深度流形變換網絡的高維數據處理方法,能夠將無監督的雙向散度損失施加在網絡的任何層之間,這樣可以保證神經網絡的映射穩定且平滑,避免數據在映射過程中出現坍塌和過平滑問題。
第一方面,本申請實施例提供了一種深度流形變換網絡,包括一自動編碼器,自動編碼器被配置成:包括編碼器網絡和解碼器網絡,編碼器網絡和解碼器分別包括多個密集塊層,
在編碼器網絡中通過多個密集塊層的第一非線性變換將輸入空間的維度降低到隱空間,再通過多個密集塊層的第二非線性變換將隱空間的維度降低到嵌入空間,在解碼器網絡中通過多個密集塊層的第三非線性變換將隱空間的維度恢復到重建空間;
基于輸入空間和重建空間計算重建損失,將重建損失加到密集塊層中;
在輸入空間和隱空間之間和/或隱空間和嵌入空間和/或輸入空間和嵌入空間之間施加雙向散度損失。
第二方面,本申請實施例提供了一種基于深度流形變換網絡的高維數據處理方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西湖大學,未經西湖大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110315106.0/2.html,轉載請聲明來源鉆瓜專利網。





