[發明專利]一種數據生成方法、裝置、設備及存儲介質在審
| 申請號: | 202110227372.8 | 申請日: | 2021-03-01 |
| 公開(公告)號: | CN112884162A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 柯景耀;潘征;潘燕峰;劉嵐 | 申請(專利權)人: | 上海熵熵微電子科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 201210 上海市浦東新區中國*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 生成 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種數據生成方法、裝置、設備及存儲介質。該方法包括:確定第一數據集合中各第一數據在空間凸區域中的維諾權重;根據各所述第一數據的維諾權重,對所述第一數據集合與第二數據集合的初始映射關系進行調整,得到目標映射關系,其中,在所述第一數據集合的數據分布和所述第二數據集合的數據分布滿足的映射關系中,所述目標映射關系的傳輸代價最小;基于所述目標映射關系和各所述第一數據的維諾權重,生成符合所述第二數據集合數據分布的偽數據。本發明解決了生成的偽數據不準確,存在較多奇異點的問題,實現了精確生成偽數據,從而提高機器學習中生成模型準確率的效果。
技術領域
本發明實施例涉及機器學習技術,尤其涉及一種數據生成方法、裝置、設備及存儲介質。
背景技術
隨著機器學習的興起,神經網絡作為一種有效的處理數據的工具,在學術界與商業中被大量地使用。
深度學習可以歸結于兩條定律:一是流形分布定律,即自然界中同一類別的高維數據,往往集中在某個低維流形附近;二是聚類分布定律,即這個高維數據類別中不同的子類數據對應著流形上的不同概率分布,這些分布之間的距離大到足夠將這些子類區分。因此,深度學習的基本任務就在于從數據中學習流形結構,建立流形的參數表達和變換概率分布。具體可參見《計算機輔助幾何設計(Computer Aided Geometric Design)》于2019年1月,68卷第1-21頁(Volume 68,January 2019,Pages 1-21)發表的論文《最優傳輸及生成模型的幾何視圖(A geometric view of optimal transportation and generativemodel)》,作者雷娜,蘇科華,..,丘成桐,顧險峰(Na Lei,Kehua Su,Li Cui,Shing-TungYau,Xianfeng David Gu)。
現有的AE-OT模型,其中的AE(AutoEncode,自動編碼器)包括兩部分,編碼器(Encoder)和解碼器(Decoder)。編碼器用于壓縮數據,將高維數據壓縮至低維的隱空間(Latent Space),解碼器用于恢復數據,將隱空間的數據恢復成為高維數據。
OT(最優傳輸,Optimal Transport)模型是用于表示兩個數據分布之間的映射關系,并且通過訓練使得映射關系滿足最優傳輸理論。最優傳輸理論是將兩個數據分布的某種距離,通過計算求解該距離的最優解。例如Wasserstein距離等。
AEOT,在機器學習技術領域中,對于機器學習模型的訓練來說,訓練樣本是必不可少的。然而,真實的訓練樣本并不容易大量獲得,因此需要通過訓練得到的映射關系生成偽數據。如何能夠找到最優傳輸映射,生成更加精準的偽數據,是目前的研究方向之一。
發明內容
本發明提供一種數據生成方法、裝置、設備及存儲介質,以實現準確生成偽數據的效果。
第一方面,本發明實施例提供了一種數據生成方法,包括:
確定第一數據集合中各第一數據在空間凸區域中的維諾權重;
根據各所述第一數據的維諾權重,對所述第一數據集合與第二數據集合的初始映射關系進行調整,得到目標映射關系,其中,在所述第一數據集合的數據分布和所述第二數據集合的數據分布滿足的映射關系中,所述目標映射關系的傳輸代價最小;
基于所述目標映射關系和各所述第一數據的維諾權重,生成符合所述第二數據集合數據分布的偽數據。
可選的,所述確定第一數據集合中各第一數據在空間凸區域中的維諾權重,包括:
獲取包含第一數據的第一數據集合,將包括所有第一數據的最小凸區域確定為空間凸區域;
基于各所述第一數據的數據分布,構造所述空間凸區域的維諾圖,所述維諾圖中的維諾胞腔與所述第一數據集合中的第一數據一一對應;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海熵熵微電子科技有限公司,未經上海熵熵微電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110227372.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:傳動裝置及軌道車輛
- 下一篇:一種航空發動機吊裝平臺
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





