[發明專利]基于多模態預訓練模型的跨模態理解與生成方法和裝置有效
| 申請號: | 202110653593.1 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113591902B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 劉靜;朱欣鑫;劉飛;郭龍騰 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態預 訓練 模型 跨模態 理解 生成 方法 裝置 | ||
本發明提供一種基于多模態預訓練模型的跨模態理解與生成方法和裝置,方法包括:確定待處理的多模態信息,多模態信息包括圖像、文本和音頻;將多模態信息輸入至多模態預訓練模型,學習所述多模態信息的相互關聯,得到多模態信息的融合表示,將融合表示輸入至理解和/或生成單元執行跨模態理解與生成任務,得到理解結果和/或生成結果。本發明提供的方法和裝置,結合圖像、文本和音頻三個模態進行理解與生成,實現了信息的充分應用。跨模態理解和跨模態生成兩個任務的結合,使得多模態預訓練模型能夠更加全面地進行特征提取和跨模態關聯構建,從而進一步提高跨模態理解與生成的準確性。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于多模態預訓練模型的跨模態理解與生成方法和裝置。
背景技術
多模態預訓練是一個跨越多個領域、涉及多種模態信息的交叉學科。該任務旨在大規模訓練一個統一框架,從而實現各種跨模態理解與生成任務,比如圖像識別、圖像生成、視覺問答、文本生成等。
目前在進行多模態預訓練時,常見的方法和框架多只考慮單個模態或者兩個模態,例如圖像和文本,又例如視頻和文本,極容易忽略周圍環境中普遍存在的其他信息,影響跨模態理解和生成的效果。且目前的多模態通常只關注跨模態理解,或者只關注跨模態生成,若要實現跨模態理解和生成通常需要訓練兩個相互獨立框架,導致了大量的計算資源和時間成本的損失。
發明內容
本發明提供一種基于多模態預訓練模型的跨模態理解與生成方法和裝置,用以解決現有的跨模態理解與生成的問題。
本發明提供一種基于多模態預訓練模型的跨模態理解與生成方法,包括:
確定待處理的多模態信息,所述多模態信息包括圖像、文本和音頻;
將所述多模態信息輸入至多模態預訓練模型,學習所述多模態信息的相互關聯,得到所述多模態信息的融合表示,將所述融合表示輸入至理解和/或生成單元執行跨模態理解與生成任務,得到理解結果和/或生成結果;
所述理解和/或生成單元包括理解模塊和生成模塊,其中所述理解模塊基于所述融合表示執行跨模態理解任務,所述生成模塊基于所述融合表示執行跨模態生成任務。
根據本發明提供的一種基于多模態預訓練模型的跨模態理解與生成方法,所述將所述多模態信息輸入至多模態預訓練模型,學習所述多模態信息的相互關聯,得到所述多模態信息的融合表示,將所述融合表示輸入至理解和/或生成單元執行跨模態理解與生成任務,得到理解結果和/或生成結果,包括:
將所述圖像、文本和音頻輸入至所述多模態預訓練模型的單模態編碼器,得到所述單模態編碼器輸出的圖像特征、文本特征和音頻特征;
將所述圖像特征、文本特征和音頻特征輸入至所述多模態預訓練模型的跨模態編碼器,得到所述跨模態編碼器輸出的融合表示,所述融合表示是基于所述圖像特征、文本特征和音頻特征之間的跨模態關聯確定的;
將所述融合表示輸入至所述理解模塊,得到所述理解模塊輸出的理解結果,和/或,將所述融合表示輸入至所述生成模塊,得到所述生成模塊輸出的生成結果。
根據本發明提供的一種基于多模態預訓練模型的跨模態理解與生成方法,所述多模態預訓練模型是基于元素級建模、模態級建模和樣本級建模中的至少一種訓練得到的;
所述元素級建模是基于樣本多模態信息中任一元素掩蓋模態信息和其他完整模態信息,預測所述任一元素掩蓋模態信息中被掩蓋的元素;
所述模態級建模是基于樣本多模態信息中的兩種完整模態信息,重構與所述兩種完整模態信息相匹配的第三種模態信息;
所述樣本級建模是基于隨機組合的三種模態信息,預測所述三種模態信息之間的匹配關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110653593.1/2.html,轉載請聲明來源鉆瓜專利網。





