[發明專利]一種基于翻譯記憶庫的神經機器翻譯方法在審
| 申請號: | 202110661294.2 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113343717A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 杜權;楊迪 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 翻譯 記憶 神經 機器翻譯 方法 | ||
1.一種基于翻譯記憶庫的神經機器翻譯方法,其特征在于包括以下步驟:
1)通過網絡爬蟲技術從含有外文數據的網絡中爬取海量雙語數據;
2)對雙語數據進行清洗過濾、分詞、子詞切分預處理,得到處理后的雙語數據;
3)將一半處理后的雙語數據存儲為翻譯記憶庫基礎數據,另一半作為訓練語料,使用搜索技術找到翻譯記憶庫中與訓練語料中每個句子最相似的句子;
4)將訓練語料數據和翻譯記憶庫數據一起輸入到神經網絡模型中開始訓練模型至模型收斂;
5)導入用戶自定義的數據到翻譯記憶庫中,形成更符合用戶習慣的自定義翻譯記憶庫;
6)對用戶實時輸入的文本進行模糊搜索,找到翻譯記憶庫中與該文本最相似的句子,并一起輸入到機器翻譯模型中,在解碼端使用門控機制指導模型翻譯;
7)將用戶輸入的句子和修訂后的結果存入翻譯記憶庫。
2.按權利要求1所述的基于翻譯記憶庫的神經機器翻譯方法,其特征在于:步驟4)中,訓練神經網絡模型至模型收斂,具體為:
401)用雙編碼器結構分別對訓練語料數據和翻譯記憶庫數據進行編碼;
402)結合兩種編碼訓練神經網絡模型至模型收斂。
3.按權利要求1所述的基于翻譯記憶庫的神經機器翻譯方法,其特征在于:步驟6)中,在機器翻譯模型的解碼端使用門控機制指導翻譯,具體為:
601)將用戶輸入句子和翻譯記憶查找結果一起輸入翻譯模型;
602)使用門控機制結合翻譯記憶和源語句指導神經網絡模型翻譯,得到翻譯結果;
603)門控機制計算具體公式為:
gtm=f(st-1,yt-1,csrc,ctm_t)
st-1為前置隱藏層狀態,yt-1為前置預測目標詞,csrc為用戶輸入句子,ctm_t為翻譯記憶,f為激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110661294.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種瑞巴派特的制備方法
- 下一篇:一種低輸入需求的無葉渦輪機及其盤體





