[發明專利]基于強化學習和機器翻譯質量評估的中朝機器翻譯方法有效
| 申請號: | 202110069256.8 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112765996B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 趙亞慧;李飛雨;崔榮一;楊飛揚;王琪;金晶;金城;李丹陽;李路軍;姜克鑫;高君龍;崔東虎 | 申請(專利權)人: | 延邊大學 |
| 主分類號: | G06F40/51 | 分類號: | G06F40/51;G06F40/58;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京東方盛凡知識產權代理事務所(普通合伙) 11562 | 代理人: | 王穎 |
| 地址: | 133002 吉林省延*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 機器翻譯 質量 評估 方法 | ||
1.基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,包括以下步驟:
將句子級別評價機制引入翻譯模型中指導模型的訓練,評價機制采用機器翻譯質量評估,指導策略采用強化學習方法,機器翻譯過程中,NMT系統作為強化學習的智能體,通過不斷與環境進行交互獲取當前時刻環境狀態信息,根據當前環境的狀態決策出下一步所選單詞,同時獲得當前狀態執行選詞操作后的獎勵值,進入下一狀態;
通過機器翻譯質量評估模型生成反饋信號,將所述機器翻譯質量評估模型的輸出作為獎勵分數QE的一部分,所述機器翻譯質量評估模型通過網絡結構對生成的譯文進行全面評分;
采用基于波束搜索的動作采樣策略,將從詞表中選取候選詞看作一個動作,通過解碼器生成目標句后環境給出的獎勵來學習得到分數最高時對應的譯文。
2.根據權利要求1所述的基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,評價機制指導模型包括機器翻譯模塊和機器翻譯質量評估模塊,所述機器翻譯模塊采用編碼器-解碼器架構與Transformer保持一致,所述機器翻譯質量評估模塊采用句子級別的機器翻譯質量評估模型Bilingual Expert進行質量評估。
3.根據權利要求2所述的基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,所述機器翻譯質量評估模型包括基于雙向Transformer的詞預測模塊和基于Bi-LSTM的回歸預測模型,所述雙向Transformer的詞預測模塊包括源句的自注意力編碼器、目標句的雙向自注意力編碼器和目標句的重構器,通過在大規模平行語料上進行預訓練,獲取隱藏狀態特征h。
4.根據權利要求1所述的基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,所述機器翻譯質量評估模型在訓練過程中,通過解碼器生成目標句后,參考環境給出的獎勵來學習得到分數最高時對應的譯文。
5.根據權利要求4所述的基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,使用生成句子經過所述機器翻譯質量評估模塊得到的QE值作為所述機器翻譯質量評估模型的訓練目標。
6.根據權利要求5所述的基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,基于QE值和BLEU值的反饋函數為:
其中,為生成譯文與參考譯文之間的歸一化BLEU值,為生成譯文的歸一化QE評估得分;超參數α用于平衡BLEU值和QE得分之間的權重。
7.根據權利要求6所述的基于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,在訓練期間,動作采樣表示為給定源句和上文選取該詞的條件概率目標為追求期望獎勵最大化;當生成完整目標句后,將所要翻譯句子的質量評估得分作為標簽信息計算反饋值,結合強化學習算法中的Policy Gradient方法得到最大化預期收益。
8.根據權利要求7所述的于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,訓練期間使用獎勵塑造,即每完成一次采樣動作均計算一個累計獎勵作為當前序列反饋值,兩個連續時間步之間的反饋差值為詞項級別獎勵。
9.根據權利要求8所述的于強化學習和機器翻譯質量評估的中朝機器翻譯方法,其特征在于,將MLE訓練目標與RL目標相結合,結合后的損失函數Lcombine為:
通過γ值對交叉熵損失和強化學習目標進行權衡,使模型效益最大化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于延邊大學,未經延邊大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110069256.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:預混燃燒器
- 下一篇:過濾式檸檬酸血液透析機用消毒清洗棒





