[發明專利]基于多模態機器翻譯模型的翻譯方法有效

申請號：	202010816635.4	申請日：	2020-08-14
公開（公告）號：	CN111967277B	公開（公告）日：	2022-07-19
發明（設計）人：	蘇勁松;林歡;尹永競;周楚倫;姚俊峰	申請（專利權）人：	廈門大學
主分類號：	G06F40/58	分類號：	G06F40/58;G06N3/04;G06N3/08
代理公司：	廈門創象知識產權代理有限公司 35232	代理人：	尤懷成
地址：	361000 ***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于多模態機器翻譯模型翻譯方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多模態機器翻譯模型的翻譯方法，其特征在于，包括以下步驟：

獲取源端句子和對應的翻譯圖像，并對所述源端句子和所述翻譯圖像進行預處理，以獲得處理后的源端句子、翻譯圖像的全局特征和翻譯圖像的局部特征；

建立多模態機器翻譯模型，并根據處理后的源端句子、翻譯圖像的全局特征和翻譯圖像的局部特征對所述多模態機器翻譯模型進行訓練，其中，所述多模態機器翻譯模型包括編碼器和解碼器，所述解碼器包括上下文指導的膠囊網絡；

基于訓練好的多模態機器翻譯模型對處理后的待翻譯的源端句子和對應的翻譯圖像進行翻譯，以生成所述待翻譯的源端句子對應的目標端句子；

其中，基于訓練好的多模態機器翻譯模型對處理后的待翻譯的源端句子和對應的翻譯圖像進行翻譯，以生成所述待翻譯的源端句子對應的目標端句子，包括：

將處理后的待翻譯的源端句子輸入到所述多模態機器翻譯模型中的編碼器進行編碼，以獲得所述處理后的待翻譯的源端句子對應的隱狀態表示；

將所述隱狀態表示、待翻譯圖像的全局特征和待翻譯圖像的局部特征輸入到所述多模態機器翻譯模型中的解碼器，并通過所述解碼器端的上下文指導的膠囊網絡提取上下文相關的多模態特征，以及根據所述上下文相關的多模態特征生成目標端句子；

其中，所述編碼器包括L_e個編碼層，所述編碼器通過以下公式獲得所述處理后的待翻譯的源端句子對應的隱狀態表示：

其中，1≤l≤L_e；表示第l層的編碼器隱狀態；MultiHead(*)為多頭注意力機制函數；S^(l-1)表示編碼器第l-1層的源端句子隱狀態表示；S^(l)表示編碼器第l層的源端句子隱狀態表示；FFN(*)為位置前饋函數。

2.如權利要求1所述的基于多模態機器翻譯模型的翻譯方法，其特征在于，所述解碼器包括L_d個解碼層，每個解碼層具有三個子層，所述上下文指導的膠囊網絡位于所述解碼器的第L_d個解碼層的第二子層和第三子層之間。

3.如權利要求2所述的基于多模態機器翻譯模型的翻譯方法，其特征在于，所述上下文指導的膠囊網絡包括第一上下文指導的膠囊網絡和第二上下文指導的膠囊網絡，其中，所述第一上下文指導的膠囊網絡用于提取翻譯圖像的全局特征對應的上下文相關的多模態特征，所述第二上下文指導的膠囊網絡用于提取翻譯圖像的局部特征對應的上下文相關的多模態特征。

4.如權利要求3所述的基于多模態機器翻譯模型的翻譯方法，其特征在于，所述上下文指導的膠囊網絡根據以下公式提取上下文相關的多模態特征：

其中，表示第L_d層的解碼器隱狀態；表示解碼器第L_d-1層輸出的隱狀態表示；表示編碼器第L_e層的隱狀態表示；表示t時刻解碼器第L_d層的上下文向量；I_g表示翻譯圖像的全局特征；I_r表示翻譯圖像的局部特征；表示翻譯圖像的全局特征對應的上下文相關的多模態特征；表示翻譯圖像的局部特征對應的上下文相關的多模態特征。

5.如權利要求4所述的基于多模態機器翻譯模型的翻譯方法，其特征在于，根據所述上下文相關的多模態特征生成目標端句子，包括：

采用門結構對翻譯圖像的全局特征對應的上下文相關的多模態特征和翻譯圖像的局部特征對應的上下文相關的多模態特征進行融合；

將融合后的多模態特征輸入到所述解碼器的第L_d個解碼層的第三子層，以得到解碼器第L_d層的目標端句子表示；

根據所述目標端句子表示生成概率分布，以生成目標端句子。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廈門大學，未經廈門大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010816635.4/1.html，轉載請聲明來源鉆瓜專利網。