[發明專利]零平行語料多模態神經機器翻譯方法有效
| 申請號: | 201910550612.0 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110245364B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 陳恩紅;劉淇;王怡君;魏天心 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;鄭哲 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 多模態 神經 機器翻譯 方法 | ||
本發明公開了一種零平行語料多模態神經機器翻譯方法,包括:利用帶有相應圖片信息的源語言和目標語言單語語料,對預先構建的神經機器翻譯模型進行預訓練;使用預訓練的神經機器翻譯模型將源語言中的句子翻譯為目標語言的句子,根據翻譯得到的句子與對應圖片之間的內在聯系計算句子級別的獎勵值,并以最大化期望的總的獎勵值為優化目標,采用策略梯度的強化學習方法對預訓練的神經機器翻譯模型參數進行更新,從而得到訓練好的神經機器翻譯模型;使用訓練好的神經機器翻譯模型對給定的源語言句子進行翻譯。該方法通過利用圖片與文字的內在聯系,可以建立零資源語言對的神經機器翻譯模型。
技術領域
本發明涉及機器翻譯技術領域,尤其涉及一種零平行語料多模態神經機器翻譯方法。
背景技術
端到端的神經機器翻譯(以下簡稱神經機器翻譯)近幾年在國內外都取得了突飛猛進的發展。神經機器翻譯摒棄了統計機器翻譯中繁瑣的結構和復雜的特征設計,直接把平行語料交給神經網絡,從而完成一個完整的翻譯系統的訓練。
在神經機器翻譯中,即使是一個最簡單的單層模型也有著大量的參數(通常為數千萬的參數)需要優化,而在機器學習中訓練一個具有大量參數的復雜模型就需要大量的訓練數據。隨著神經機器翻譯的模型設計越來越復雜,模型的深度不斷增加,相應地就需要更多的訓練數據。然而實際中高質量的平行語料的獲取需要大量的人工翻譯,是極為耗時又昂貴的。因此,如何解決在沒有平行語料,即零平行語料資源下的神經機器翻譯問題是神經機器翻譯亟需解決的一個重要問題。
圍繞這個研究問題,研究者們提出了多種解決方法。其中,以單語語料相對應的圖片等視覺信息為中軸構建機器翻譯模型的方法是為零平行語料資源語言對構建翻譯模型的一種有效方式。相關研究主要將圖片當作兩種語言的中軸,通過將圖片用圖片描述模型進行文字描述而形成平行的語料來訓練翻譯模型,而忽略了圖片與文字信息在語義上的內在聯系。上述方法雖然能通過構造平行語料來實現神經機器翻譯模型的訓練,但是由于圖片描述模型效果有限,其產生的錯誤描述將會導致形成低質量的平行語料訓練數據,從而影響訓練的神經機器翻譯模型的質量,最終導致翻譯結果的準確度較低。
發明內容
本發明的目的是提供一種零平行語料多模態神經機器翻譯方法,通過利用圖片與文字的內在聯系,可以建立零平行語料多模態神經機器翻譯模型。
本發明的目的是通過以下技術方案實現的:
一種零平行語料多模態神經機器翻譯方法,包括:
利用帶有相應圖片信息的源語言和目標語言單語語料,對預先構建的神經機器翻譯模型進行預訓練;
使用預訓練的神經機器翻譯模型將源語言中的句子翻譯為目標語言的句子,根據翻譯得到的句子與對應圖片之間的內在聯系計算句子級別的獎勵值,并以最大化期望的總的獎勵值為優化目標,采用策略梯度的強化學習方法對預訓練的神經機器翻譯模型參數進行更新,從而得到訓練好的神經機器翻譯模型;
使用訓練好的神經機器翻譯模型對給定的源語言句子進行翻譯。
由上述本發明提供的技術方案可以看出,針對多模態單語語料,采用強化學習的方法,通過圖片和對應文字描述之間的語義聯系定義獎勵的計算方法,從而實現對神經機器翻譯模型的建模和訓練,最終實現零平行語料多模態的神經機器翻譯,使這種情況下翻譯結果更加準確。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他附圖。
圖1為本發明實施例提供的一種零平行語料多模態神經機器翻譯方法的流程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910550612.0/2.html,轉載請聲明來源鉆瓜專利網。





