[發明專利]一種基于Wasserstein空間的可視化降維方法在審
| 申請號: | 202110063574.3 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112765426A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 秦紅星;陳立 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/904 | 分類號: | G06F16/904 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 wasserstein 空間 可視化 方法 | ||
本發明涉及一種基于Wasserstein空間的可視化降維方法,屬于數據處理領域。該方法包括以下步驟:S1:輸入原始高維數據,對其進行歸一化預處理。S2:根據給定超參數計算預處理后高維數據的雙調和距離。S3:基于雙調和距離計算高維數據的對應概率測度。S4:初始化投影點位置,并計算其對應概率測度。S5:使用Sinkhorn迭代計算損失函數對偶形式的解。S6:對損失函數關于投影點位置求導,并更新投影點位置。S7:重復執行S5和S6,直到達到迭代停止條件,得到投影結果。用于有類型的高維數據,獲得具有良好分類效果的二維投影,以便用戶和研究人員能直觀地獲取原數據的類別分布信息。
技術領域
本發明屬于數據處理領域,涉及一種基于Wasserstein空間的可視化降維方法。
背景技術
高維數據頻繁地出現在統計學、數據科學、機器學習、生命科學以及商務事務等領域。然而,這些領域中的復雜事務需要處理的數據通常有著數十上百維的特征,為數據分析和模式挖掘帶來了困難。為了從中分析和獲取所需信息,高維數據的可視化已成為信息可視化領域的重要分支。目前,已有諸多技術致力于解決此問題,例如平行坐標軸、熱力圖以及各類基于圖的可視化技術等等。在所有高維信息可視化方法中,降維技術,也稱投影,有著特殊的優勢:通過把高維數據投影為2或3維的點,數據能以散點圖的形式直接呈現在屏幕上。此外,相比于其它技術,基于降維的可視化方法通常對數據的維數有很好的伸縮性。當然,降維技術也有其局限性。由于低維空間在本質上無法保持高維數據的全部特征,所有降維技術都只能側重于保留原數據的某一部分信息。因此,降維技術通常有其最為適應的數據類型和用途,而在此范疇之外則無法期望能取得最好的效果。本發明主要關注的數據類型和用途是:對于有類別的高維數據構造具有良好分類效果的二維投影。
就其原理而言,可以把降維技術二分為兩類:全局的和局部的,前者側重于保留高維數據的全局結構,后者則側重于局部細節的保留。在全局方法中最著名的應屬PCA和MDS,這兩種方法都有著大量的衍生和改進,且有著廣泛的應用。PCA的基本思想是保留數據具有最大方差的特征,其目標維數可以任意設置,當維數設定為二維時就得到可畫出的散點圖。MDS則著重于保留原數據的點對距離,也即是說,該方法構造的投影點的點對距離與原數據的點對距離在某種度量下盡的差距盡可能小。全局的方法通常在理論上有著很好的性質,如PCA還可以用來作為數據預處理的技術,但作為可視化方法通常不是最好的選擇,特別是對于數據分類這一目的而言。另一方面,局部的降維技術通常能更好地展示原數據的細節。在此類方法中,最受到廣泛使用的是T-SNE,它提出在高維和低維用不同的概率測度表達其距離信息,并用KL散度作為損失函數得到投影。UMAP則很可能成為T-SNE的取代者,該方法在結構上類似T-SNE,但以流形的均勻采樣作為理論基礎,并使用模糊集的信息熵作為損失函數,獲得了比T-SNE更快的速度和很有競爭力的投影效果。但是,在一些數據集上,這兩種主流方法的分類效果依然欠佳,或需要較為精細的調參和多次運行才能獲得較好效果。
發明內容
有鑒于此,本發明的目的在于提供一種基于Wasserstein空間的可視化降維方法。
為達到上述目的,本發明提供如下技術方案:
一種基于Wasserstein空間的可視化降維方法,該方法包括以下步驟:
S1:輸入原始高維數據,對其進行歸一化預處理。
S2:根據給定超參數計算預處理后高維數據的雙調和距離。
S3:基于雙調和距離計算高維數據的對應概率測度。
S4:初始化投影點位置,并計算其對應概率測度。
S5:使用Sinkhorn迭代計算損失函數對偶形式的解。
S6:對損失函數關于投影點位置求導,并更新投影點位置。
S7:重復執行S5和S6,直到達到迭代停止條件,得到投影結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110063574.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:預制箱梁吊裝空中換勾技術
- 下一篇:益智互動類玩具及其加工制造方法
- 一種融合Faster-RCNN和Wasserstein自編碼器的圖像檢索方法
- 一種基于Wasserstein GAN的光伏陣列故障診斷方法
- 基于Wasserstein距離的卷積神經網絡對抗遷移學習方法及其應用
- 一種基于深度學習和Wasserstein距離度量的指靜脈識別方法
- 一種基于Wasserstein距離的深度對抗遷移網絡的故障診斷方法
- 一種基于Sliced-Wasserstein距離的深度自編碼進行圖像降維并嵌入聚類的方法
- 基于信號分布Wasserstein距離度量的Wi-Fi室內定位方法
- 一種采用Wasserstein距離的差分隱私貪心分組方法
- 基于Wasserstein生成對抗網絡模型的高能圖像合成方法、裝置
- 一種基于Wasserstein距離的物體包絡體多視圖重建與優化方法





