[發明專利]多模態神經機器翻譯的雙級交互式多模態混合編碼器及編碼方法在審
| 申請號: | 202210018272.9 | 申請日: | 2022-01-08 |
| 公開(公告)號: | CN115034235A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 郭軍軍;葉俊杰;余正濤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態 神經 機器翻譯 交互式 混合 編碼器 編碼 方法 | ||
1.多模態神經機器翻譯的雙級交互式多模態混合編碼器,其特征在于:包括源文本表征和視覺表征模塊、源語句自注意力模塊、文本引導視覺區域特征提取模塊、多模態視覺-文本注意力模塊、視覺-文本多模態混合模塊;
所述源文本表征和視覺表征模塊用于對數據集中的數據進行源文本表征和視覺表征;
所述源語句自注意力模塊用于通過文本自注意力收集附近有關單詞的信息來生成源句子的上下文表示;
所述文本引導視覺區域特征提取模塊用于提取文本引導視覺區域特征;
所述多模態視覺-文本注意力模塊用于通過多模態視覺文本注意融合視覺信息和文本信息;
所述視覺-文本多模態混合模塊用于采用多模態混合策略混合文本特征和網格視覺特征,之后經過一個位置前饋網絡。
2.根據權利要求1所述的多模態神經機器翻譯的雙級交互式多模態混合編碼器,其特征在于:所述數據集是通過如下方式得到的:
通過國際翻譯大賽WMT2018:mltimodel-task1下載Multi30K數據集,其中訓練、驗證和測試集分別包含29k、1014和1000個文本圖像對;額外的還使用包含1000個文本-圖像對的WMT17測試集和包含461個文本圖像對的模糊MSCOCO測試集來評估模型;然后通過字節對編碼分割和10000次合并操作直接使用預處理后的句對。
3.根據權利要求1所述的多模態神經機器翻譯的雙級交互式多模態混合編碼器,其特征在于:所述源文本表征和視覺表征模塊包括用于實現如下內容:
用于對數據進行源文本表征和視覺表征;
源文本表征和視覺表征模塊中源語言句子通過傳統的帶有位置嵌入的嵌入層表征,圖像分別通過預訓練的Resnet-101和Faster R-CNN提取的圖片表征為網格視覺特征和區域視覺特征;分別用和zk表示源語言句子和對應圖像的第k個數據對,其中n是源語言句子xk的源句子長度,源文本表征和視覺表征表示如下:
其中,embx是具有詞嵌入和位置嵌入的文本表征層,embz,g是基于Resnet-101的網格視覺特征提取層,embz,r是基于Faster R-CNN的區域視覺特征提取層,為視覺表征中的網格視覺特征,為視覺表征中的區域視覺特征。
4.根據權利要求1所述的多模態神經機器翻譯的雙級交互式多模態混合編碼器,其特征在于:所述源語句自注意力模塊用于通過文本自注意力收集附近有關單詞的信息來生成源句子的上下文表示,即文本特征表示為:
其中,l={0,1,…,5}表示Transformer的層數,Multihead(*)表示多模態自注意力,文本特征作為查詢/鍵/值矩陣,為源文本表征。
5.根據權利要求1所述的多模態神經機器翻譯的雙級交互式多模態混合編碼器,其特征在于:所述文本引導視覺區域特征提取模塊中包括:
基于文本的文本-視覺門控機制:采用基于文本的文本視覺門控機制來過濾掉源句中不相關的區域特征,提出的多模態門控模塊如下:
這里是與文本相關的區域特征,α是區域特征和文本特征之間的相似權重,和是參數矩陣,為源文本表征,為視覺表征中的區域視覺特征;
視覺間交叉注意模塊:在區域特征和網格特征之間構建了一個視覺間的交叉注意模塊,用于獲得與文本相關的區域視覺特征的全局視覺特征;具體來說,首先連接網格視覺特征和區域視覺特征如下:
其中,||表示連接操作,然后使用視覺間的交叉注意力來生成與文本互連接且一致的有效區域特征網絡,與文本自注意力類似,視覺間的交叉注意力視覺特征表示如下:
其中,為視覺表征中的網格視覺特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210018272.9/1.html,轉載請聲明來源鉆瓜專利網。





