[發明專利]一種基于熵的神經機器翻譯動態解碼方法及系統有效
| 申請號: | 202010151246.4 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111428519B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 程學旗;郭嘉豐;范意興;王素 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/08 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經 機器翻譯 動態 解碼 方法 系統 | ||
本發明提出一種基于熵的神經機器翻譯動態解碼方法及系統,通過分析句子的熵值與BLEU值之間的關系,發現BLEU值高的句子中單詞的平均熵值比BLEU值低的句子中單詞的平均熵值小,且熵值低的句子的BLEU值普遍比熵值高的句子的BLEU值高。通過計算句子的熵值與BLEU值之間的Pearson系數,發現兩者之間存在相關性。因此,本發明提出在訓練過程解碼階段的每個時間步,不僅要以一定的概率采樣選擇真實單詞或預測單詞獲取上下文信息,還要根據上一個時間步的預測結果計算熵值,然后根據熵值動態調整上下文信息的權重。解決了神經機器翻譯模型在解碼過程中因訓練和推斷之間的上下文信息差異而導致的錯誤累積問題。
技術領域
本發明涉及自然語言處理及神經機器翻譯技術領域,并特別涉及一種基于熵的神經機器翻譯動態解碼方法及系統。
背景技術
機器翻譯是自然語言處理中的一項重要任務,近年來,隨著深度神經網絡的崛起,基于神經網絡的機器翻譯方法取得了巨大的進步,并逐漸成為了主流的機器翻譯方法。神經機器翻譯模型主要包含三個部分:編碼器網絡、解碼器網絡和注意力網絡。
編碼器網絡負責將源語言句子編碼成隱向量列表,每個單詞對應一個隱向量表示。編碼器網絡通常是多層的雙向RNN結構,其中前向RNN順序讀入源語言句子序列(從x1到x|x|),計算得到前向隱狀態序列反向RNN逆序讀入源語言句子序列(從x|x|到x1),計算得到反向隱狀態序列單詞xi對應的隱向量表示為這樣hi不僅包含前面單詞的語義信息,還包含后面單詞的語義信息。
注意力網絡根據編碼器網絡生成的隱向量列表(h1,…,h|x|)和當前隱層狀態向量sj-1,計算出上下文向量cj,傳給解碼器網絡。首先計算隱向量列表(h1,…,h|x|)與當前隱層狀態向量sj-1之間的相關程度,得到權重列表(α1j,…,α|x|j),然后用該權重列表對隱向量列表加權求和,計算出上下文向量cj,用于下一隱層狀態向量sj的計算。
解碼器網絡通常是多層RNN結構,每個時間步都根據當前單詞向量隱層狀態向量sj-1和注意力網絡計算出的上下文向量cj,計算出下一時間步的隱層狀態向量sj,并解碼出一個目標語言單詞yj,直到生成特殊的句尾符號(EOS)為止。
現有的神經機器翻譯模型架構如圖1所示。雖然現有的神經機器翻譯模型已經取得了不錯的效果,但仍存在一些不足之處。在現有的技術中,模型根據上下文信息依次解碼出目標單詞。在訓練階段,模型用真實的單詞作為上下文信息進行預測,而在推斷階段,它必須從頭開始生成整個序列,只能用上一個時間步的預測結果作為上下文信息進行預測。這種訓練和推斷之間的上下文信息差異導致了錯誤的累積,使得模型必須在訓練階段未見過的情況下進行預測。
在現有的神經機器翻譯模型中,解碼過程的每個時間步都根據當前單詞向量隱層狀態向量sj-1和注意力網絡計算出的上下文向量cj,計算出下一時間步的隱層狀態向量sj,即在訓練階段,yj-1是訓練語料中真實的目標語言單詞而在推斷階段,yj-1是上一時間步預測出的目標語言單詞為解決訓練和推斷之間的這種上下文信息差異,模型在訓練階段,要以一定的概率從真實序列和預測序列中采樣獲取上下文信息,而不僅僅是選擇真實序列中的目標語言單詞,即這種方法雖然在一定程度上減小了訓練階段和推斷階段之間的差異,提升了翻譯效果,但當采樣選擇預測序列中的單詞時,由于預測本身的不確定性,會使得訓練過程引入預測誤差,降低模型的魯棒性。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010151246.4/2.html,轉載請聲明來源鉆瓜專利網。





