[發(fā)明專利]多模態(tài)神經(jīng)機器翻譯的雙級交互式多模態(tài)混合編碼器及編碼方法在審
| 申請?zhí)枺?/td> | 202210018272.9 | 申請日: | 2022-01-08 |
| 公開(公告)號: | CN115034235A | 公開(公告)日: | 2022-09-09 |
| 發(fā)明(設(shè)計)人: | 郭軍軍;葉俊杰;余正濤 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 昆明隆合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多模態(tài) 神經(jīng) 機器翻譯 交互式 混合 編碼器 編碼 方法 | ||
本發(fā)明涉及多模態(tài)神經(jīng)機器翻譯的雙級交互式多模態(tài)混合編碼器及編碼方法。編碼器首先提取圖片特征為網(wǎng)格特征和區(qū)域特征,再提出了文本引導(dǎo)的視覺特征提取方法,采用文本?視覺門控機制和視覺間的交叉注意機制來獲取文本密切相關(guān)的視覺特征。文本模態(tài)先進(jìn)行自我關(guān)注相互建立聯(lián)系,然后文本特征和文本相關(guān)的視覺特利用多頭視覺?文本注意機制來增強文本信息,接著采用了多模態(tài)混合策略混合文本特征和網(wǎng)格特征,之后經(jīng)過一個位置前饋網(wǎng)絡(luò)。最后在編碼器的第六層輸出特征作為解碼器的輸入。然后解碼器的輸出層使用線性變換和softmax函數(shù)去預(yù)測最大概率生成的句子。本發(fā)明能捕獲有效的圖像特征并融合不同模態(tài)的信息,提高了機器翻譯性能。
技術(shù)領(lǐng)域
本發(fā)明涉及多模態(tài)神經(jīng)機器翻譯的雙級交互式多模態(tài)混合編碼器及編碼方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
多模態(tài)神經(jīng)機器翻譯(MNMT)最近引起了廣泛關(guān)注,它是神經(jīng)機器翻譯的一 個重要方向(Huang et al.2016;Calixto,Liu,and Campbell 2017)。與傳統(tǒng)的基于文本 的神經(jīng)機器翻譯不同,多模態(tài)神經(jīng)機器翻譯旨在使用圖像來指導(dǎo)文本機器翻譯,只 需要少量數(shù)據(jù)即可實現(xiàn)卓越的翻譯性能。目前大多數(shù)工作都集中在用于訓(xùn)練模型的 Multi30K數(shù)據(jù)集上(Elliott等人,2016年)。
如何探索和提取相關(guān)的視覺特征以增強文本機器翻譯是多模態(tài)神經(jīng)機器翻譯的關(guān)鍵。為了實現(xiàn)這一目標(biāo),最近進(jìn)行了許多研究,大致包括:(1)應(yīng)用注意力機制 來提取有用的視覺上下文信息(Calixto、Liu和Campbell 2017;Delbrouck和Dupont 2017;Helcl etal.2018;Zhou et al.2018)。(2)使用視覺特征作為額外的源語言輸入 (Huang etal.2016;Calixto,Liu,and Campbell 2017)來擴展數(shù)據(jù)量,或使用連接的方 法(Yao andWan 2020)連接到源語言句子。(3)利用視覺上下文特征通過門控機制 增強文本(Yin etal.2020;Lin et al.2020);此外,Nishihara等人采用多模態(tài)神經(jīng)機 器翻譯的視覺和文本輸出分布的一致性提高模型性能。
盡管這些方法取得了成功,但這些方法仍然存在各種缺點。網(wǎng)格特征和區(qū)域特 征是從圖像中提取的兩種主要的常見視覺特征。早期方法中使用了網(wǎng)格特征(Calixto、Elliott和Frank 2016;Calixto、Liu和Campbell 2017)。然而,網(wǎng)格特征包含大量 與文本無關(guān)的信息(噪聲),如圖2左側(cè)所示,只有女孩和網(wǎng)球拍是與文本相關(guān)的信 息(有用信息)。在給定圖像的所有網(wǎng)格特征中,很大一部分與相應(yīng)的文本無關(guān),直 接融合網(wǎng)格特征和文本特征可能會引入不相關(guān)的視覺信息,例如背景視覺特征。
區(qū)域特征可以提供對象級別的信息,一些顯著區(qū)域通常對文本級別的機器翻譯有用。然而,區(qū)域特征仍然因缺乏全局視覺特征和上下文信息而受到限制。如圖2 右側(cè)所示,源語言中的'a young lady'和'tennis racket'分別與黑色框所在區(qū)域密切相關(guān), 有助于機器翻譯,但仍然有很多不相關(guān)的機器翻譯的對象信息,如白色框所在區(qū)域 所示。此外,區(qū)域特征缺乏全局場景信息。大多數(shù)早期的MNMT方法僅使用網(wǎng)格 特征(Yao and Wan2020)或區(qū)域特征(Yin et al.2020),無法提供足夠的視覺指導(dǎo)。
為了解決視覺特征融合問題,提出了用于多模態(tài)機器翻譯的雙級交互式多模態(tài)混合編碼器(DLMulMix)。利用網(wǎng)格特征和區(qū)域特征來豐富文本表示。我們首先使 用標(biāo)準(zhǔn)Transformer嵌入層來初始化文本特征,并使用預(yù)訓(xùn)練的Resnet-101網(wǎng)絡(luò)來初 始化網(wǎng)格特征和區(qū)域特征。然后利用文本引導(dǎo)的視覺編碼器通過文本-視覺門控機制 和區(qū)域-網(wǎng)格自注意力機制來提取與文本相關(guān)的區(qū)域特征。最后,提出了文本-視覺多 模態(tài)混合模塊,通過多模態(tài)混合策略將文本相關(guān)的視覺特征對齊到視覺-文本公共空 間。本發(fā)明的模型學(xué)習(xí)了更好的多模態(tài)表示,因此有利于改進(jìn)多模態(tài)機器翻譯。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210018272.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 用于治療支氣管樹的系統(tǒng)、組件和方法
- 一種頸部神經(jīng)信號記錄方法
- 用于在激活褐色脂肪組織時抑制神經(jīng)的方法和裝置
- 一種神經(jīng)元硬件裝置及用這種裝置模擬脈沖神經(jīng)網(wǎng)絡(luò)的方法
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種神經(jīng)疏通緩解裝置
- 神經(jīng)移植物及應(yīng)用其的神經(jīng)移植物系統(tǒng)
- 一種模擬神經(jīng)網(wǎng)芯片的設(shè)計方法及模擬神經(jīng)網(wǎng)芯片
- 神經(jīng)網(wǎng)絡(luò)的剪枝方法、裝置、設(shè)備及存儲介質(zhì)
- 一套無人機神經(jīng)網(wǎng)絡(luò)控制用的人工神經(jīng)元模型





