[發(fā)明專利]一種基于解碼器輸入增強的非自回歸神經(jīng)機器翻譯方法有效
| 申請?zhí)枺?/td> | 202110592520.6 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113468895B | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設計)人: | 杜權;徐萍;楊迪 | 申請(專利權)人: | 沈陽雅譯網(wǎng)絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F18/214;G06F18/2415;G06N3/0464;G06N3/08 |
| 代理公司: | 沈陽新科知識產(chǎn)權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 解碼器 輸入 增強 回歸 神經(jīng) 機器翻譯 方法 | ||
本發(fā)明公開一種基于解碼器輸入增強的非自回歸神經(jīng)機器翻譯方法,步驟為:構造非自回歸神經(jīng)機器翻譯模型;構建雙語混合預訓練模型;將雙語混合句子作為編碼器的輸入,通過解碼器來預測編碼器中被替換的片段;用雙語混合預訓練模型編碼器的詞嵌入初始化非自回歸神經(jīng)機器翻譯模型編碼器和解碼器的詞嵌入;構建訓練平行語料,生成機器翻譯詞表;通過解碼器預測對應的目標語句子;計算預測出的分布與真實數(shù)據(jù)分布的差異,完成非自回歸神經(jīng)機器翻譯模型的訓練過程;將源語句子送入非自回歸神經(jīng)機器翻譯模型中。本發(fā)明通過詞典替換的方式將源語與目標語的表示映射到了同一的詞義空間下,豐富了詞向量的表達能力,可被非自回歸神經(jīng)機器翻譯模型更好利用。
技術領域
本發(fā)明涉及一種神經(jīng)機器翻譯推斷加速方法,具體為基于解碼器輸入增強的非自回歸神經(jīng)機器翻譯方法。
背景技術
機器翻譯是將一種自然語言翻譯為另一種自然語言的技術。機器翻譯是自然語言處理的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。同時,隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,機器翻譯技術在人們日常的生活工作中起到了越來越重要的作用。
機器翻譯技術從上世紀70年代基于規(guī)則的方法,到80年代基于實例的方法,90年代基于統(tǒng)計的方法,到如今基于神經(jīng)網(wǎng)絡的方法,歷經(jīng)多年的發(fā)展,終于達到了良好的效果,在人們的日常生活中得到了更廣泛的使用。
目前最被廣為應用的神經(jīng)機器翻譯系統(tǒng)通常采用基于神經(jīng)網(wǎng)絡的端到端的編碼器-解碼器框架,其中性能最強大的則是基于自注意力機制的Transformer模型結構,在多個語種的上取得了最佳的翻譯性能。Transformer由基于自注意力機制的編碼器和解碼器組成。標準的Transformer編碼器由六層堆疊的編碼層組成,解碼器同樣包括六層解碼層。整個模型中拋棄了傳統(tǒng)的RNN和CNN,完全由注意力機制組成。更準確的說Transformer由且僅由注意力機制和前饋神經(jīng)網(wǎng)絡組成。相比于RNN由于Transformer拋棄了只能順序計算的限制,提高了系統(tǒng)的并行能力。同時由于并行計算的處理方式,也緩解了順序計算中的長期依賴難以處理的現(xiàn)象。Transformer的編碼層包括自注意力層和前饋神經(jīng)網(wǎng)絡組成。自注意力編碼器輸出的用稠密向量表示的句子進行特征提取后送入前饋神經(jīng)網(wǎng)絡。解碼器相對于解碼器來說在自注意力層和前饋神經(jīng)網(wǎng)絡層之間增加了一個編碼-解碼注意力層,來對源語和目標語之間的映射關系進行建模。
基于神經(jīng)網(wǎng)絡的機器翻譯系統(tǒng)在性能上相較之前備受矚目的基于統(tǒng)計的翻譯系統(tǒng)而言,在性能上已經(jīng)得到了十足的進步。但由于神經(jīng)網(wǎng)絡涉及大量的矩陣運算,因此在訓練以及解碼上相對之前的方法會更加耗時。對于這兩方面的耗時,在實際中往往對于解碼的時間消耗更為看重。為使得神經(jīng)機器翻譯系統(tǒng)能夠在實際中被應用起來,必須要求系統(tǒng)在解碼的過程中具有較高的響應速度,否則面對難以接受的延遲,即使翻譯系統(tǒng)具有更為優(yōu)秀的性能,在很多場景下用戶也很難接受。
目前大多數(shù)機器翻譯模型都使用了編碼器-解碼器框架來實現(xiàn),編碼器將源語句的表示送入到解碼器來生成目標句子;解碼器通常以自回歸的方式來工作,從句首到句尾逐字地生成目標句子,第t個目標詞的生成依賴于先前生成的t-1個目標詞。這種自回歸的解碼方式符合閱讀和生成句子時的習慣,能有效地捕捉到真實翻譯的分布情況。但是解碼器的每個步驟必須順序地而不是并行地運行,因此自回歸解碼會阻止像Transformer這樣的體系結構在推理過程中充分體現(xiàn)其訓練時的性能優(yōu)勢。
為了減輕推理延遲,非自回歸神經(jīng)機器翻譯模型被提出,該模型以從句首到句尾的方式使用復制的源輸入初始化解碼器輸入,并獨立地同時生成所有目標詞。但是,非自回歸神經(jīng)機器翻譯模型在實現(xiàn)加速的同時,其解碼器必須在薄弱的目標端信息條件下來處理翻譯任務,從而降低了翻譯的準確性。
發(fā)明內容
針對非自回歸神經(jīng)機器翻譯模型中由于薄弱的目標端信息造成翻譯質量下降的問題,本發(fā)明提供了一種基于解碼器輸入增強的非自回歸神經(jīng)機器翻譯方法,能夠使得非自回歸神經(jīng)機器翻譯取得與自回歸神經(jīng)機器翻譯相當?shù)男阅芮揖哂休^高的響應速度以及更好實際應用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網(wǎng)絡技術有限公司,未經(jīng)沈陽雅譯網(wǎng)絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110592520.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





