[發明專利]多模態變分自編碼模型訓練方法、系統及相關設備在審
| 申請號: | 202210659509.1 | 申請日: | 2022-06-09 |
| 公開(公告)號: | CN115035366A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 陳亞瑞;楊劍寧;吳世偉;劉垚;王曉捷;閆瀟寧;許能華 | 申請(專利權)人: | 深圳市安軟慧視科技有限公司 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/82;G06N3/04;G06N3/08;G06F17/18 |
| 代理公司: | 深圳君信誠知識產權代理事務所(普通合伙) 44636 | 代理人: | 劉偉 |
| 地址: | 518000 廣東省深圳市福田區沙*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態變分 編碼 模型 訓練 方法 系統 相關 設備 | ||
本發明適用于多模態數據處理領域,提供了一種多模態變分自編碼模型訓練方法、系統及相關設備,所述方法包括:獲取包含多種模態的圖像數據,并將每兩張不同模態的圖像數據進行配對,得到圖像對數據集;構建多模態變分自編碼框架模型,并將所述圖像對數據集作為所述多模態變分自編碼框架模型的輸入,對所述多模態變分自編碼框架模型進行訓練;使用四元組度量損失作為所述多模態變分自編碼框架模型訓練的損失函數,直到損失函數收斂,輸出完成訓練的多模態變分自編碼模型。本發明實現了在多模態變分自編碼模型訓練過程中在隱空間對共享隱向量進行對齊,使模型對多模態數據的數據表示與生成能力得到提高。
技術領域
本發明屬于多模態數據處理領域,尤其涉及一種多模態變分自編碼模型訓練方法、系統及相關設備。
背景技術
多模態數據處理廣泛存在于自然科學研究、工程技術等領域中,不同模態的數據往往是對同一事、物不同形式的表示,又各自具有獨特的性質。對多模態數據進行建模與表示是人工智能研究領域的重要課題,多模態數據處理也是人工智能技術應用重要的組件。
采用概率生成模型處理多模態數據是一個重要的研究領域,早期的模型不能有效地處理大規模數據場景下模型訓練與推理問題,而變分自編碼(Variational Auto-Encoder,簡稱VAE)的提出很好地解決了該問題,基于VAE框架的深度概率生成模型研究也成為了當前多模態數據處理重要的方向。2016年之后,一些研究工作基于VAE框架通過建模數據的條件生成過程,實現模態之間的數據交叉與轉換生成,但這些工作未從生成角度進行多模態數據建模,限制了模型的表示能力;2017年之后,對多模態聯合數據分布的建模研究工作陸續展開,包括聯合多模態變分自編碼器(joint multimodal variational auto-encoder,JMVAE)模型、多模態變分自編碼器(multimodal variational auto-encoder,MVAE)模型和專家混合多模態變分自編碼器(mixture-of-experts multimodalvariational auto-encoder,MMVAE)模型等,這些模型通過建模多模態數據聯合概率分布實現多模態數據的表示、條件生成,比分別建模不同方向上條件概率分布的訓練開銷更低,也獲得了更有效的數據表示。但這些模型沒有對數據進行解耦表示。
2020年以來的一些研究工作嘗試將不同模態的共享與私有信息分開表示,相關工作提出了解耦的多模態變分自編碼器(disentangling multimodal variational auto-encoder,DMVAE)模型,該模型通過將模態共享與私有信息分開表示,并最小化共享與私有隱向量的互信息進行解耦表示,同時通過噪音對抗估計損失在隱空間對齊共享隱向量,取得了較好的效果,但該模型仍然存在數據生成質量不清晰與共享私有信息抽取不準確的問題。
在當前多模態數據處理領域,已有的研究工作對不同模態數據之間的共享信息沒有顯式的約束,這使得多模態數據共享與私有信息不能被高效地解耦表示,進而導致信息抽取不準確、生成數據模糊的問題。
發明內容
為解決以上問題,本發明實施例提供一種多模態變分自編碼模型訓練方法、系統及相關設備,旨在提高多模態數據中共享和私有信息的數據生成、解耦等能力。
第一方面,本發明實施例提供一種多模態變分自編碼模型訓練方法,所述方法包括以下步驟:
獲取包含多種模態的圖像數據,并將每兩張不同模態的圖像數據進行配對,得到圖像對數據集;
構建多模態變分自編碼框架模型,并將所述圖像對數據集作為所述多模態變分自編碼框架模型的輸入,對所述多模態變分自編碼框架模型進行訓練;
使用四元組度量損失作為所述多模態變分自編碼框架模型訓練的損失函數,直到損失函數收斂,輸出完成訓練的多模態變分自編碼模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市安軟慧視科技有限公司,未經深圳市安軟慧視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210659509.1/2.html,轉載請聲明來源鉆瓜專利網。





