[發(fā)明專利]一種基于翻譯記憶庫的神經機器翻譯方法在審
| 申請?zhí)枺?/td> | 202110661294.2 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113343717A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設計)人: | 杜權;楊迪 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 翻譯 記憶 神經 機器翻譯 方法 | ||
本發(fā)明公開一種基于翻譯記憶庫的神經機器翻譯方法,步驟為:從含有外文數據的網絡中爬取海量雙語數據;對雙語數據進行預處理,得到處理后的雙語數據;將一半雙語數據存儲為翻譯記憶庫基礎數據,另一半使用搜索技術找到翻譯記憶庫中與訓練語料中每個句子最相似的句子;將訓練語料數據和翻譯記憶庫數據一起輸入到神經網絡模型中開始訓練模型;導入用戶自定義的數據到翻譯記憶庫中;對用戶實時輸入的文本搜索找到翻譯記憶庫中與該文本最相似的句子,輸入到機器翻譯模型中,在解碼端使用門控機制指導模型翻譯;將用戶輸入的句子和修訂后的結果存入翻譯記憶庫。本發(fā)明應用先進的神經機器翻譯技術,翻譯效果優(yōu)越,滿足不同用戶對翻譯譯文的高質量要求。
技術領域
本發(fā)明涉及一種神經機器翻譯方法,具體為基于翻譯記憶庫的神經機器翻譯方法。
背景技術
機器翻譯是利用計算機將一種自然語言轉換為另一種自然語言的過程。隨著互聯(lián)網的飛速發(fā)展,機器翻譯在經濟、文化交流、政治等各個方面起到越來越重要的作用,這也體現了機器翻譯的實用價值。機器翻譯的最大優(yōu)點是速度快,只需輸入一段文字即可看到結果。而現在很多軟件也實現了整段文字和整篇文章的翻譯,這種速度是人力所無法比擬的。
神經機器翻譯(Neural Machine Translation,NMT)是一種基于深度學習的機器翻譯方法,它在大規(guī)模并行語料庫存在的情況下提供了最先進的翻譯性能。神經機器翻譯允許翻譯系統(tǒng)的端到端訓練,而不需要處理詞對齊、翻譯規(guī)則和復雜的解碼算法,這些是統(tǒng)計機器翻譯(SMT)系統(tǒng)的特征。神經機器翻譯依賴于深入學習來訓練翻譯模型。
翻譯記憶庫是一個數據庫,存儲以前翻譯過的句子、段落或文本句段。翻譯記憶庫中的每個條目或每個句段均包含源文及其翻譯。譯者首先提供一段來源文字(即要拿來被翻譯的文字)給翻譯記憶庫,程式會先分析這段文字,試著在數據庫里找尋既有的翻譯區(qū)段是否與過去曾經翻譯過的文字相符。如果找到相符的舊有翻譯(legacy translationpairs),則會呈現出來給譯者檢閱。譯者可以選擇接受舊有的翻譯、拒絕、或是加以修改。若加以修改,則修改的版本也會被記錄并存進數據庫里。這意味著以前翻譯過的句子、段落或文本句段再也不需要重新翻譯。某些翻譯記憶庫系統(tǒng)只會搜尋100%相符的文字,也就是說這只會將新的來源文字與數據庫內做精確的比對,只有完全相符的資料才會被提出。也有其他的系統(tǒng)會使用模糊比對原理來找尋相似的區(qū)段,并且會用特別的標記呈現給譯者使其易于辨認。有一點很重要的是一般的翻譯記憶系統(tǒng)只會從其數據庫里搜尋來源語言,完全無相似的文字區(qū)段將必須由譯者手動的翻譯,這些新翻譯的文字區(qū)段會被存進數據庫里,則未來的翻譯將有可能因為來源文字重復出現而可以馬上被采用。
發(fā)明內容
針對現有技術中翻譯記憶庫只能應用在重復度較高的文本上等不足,本發(fā)明要解決的技術問題是提供一種基于翻譯記憶庫的神經機器翻譯方法,利用海量的真實語料,使用先進的神經機器翻譯技術,配合翻譯記憶庫的信息,把重復度較低的文本進行機器翻譯,達到用戶對翻譯結果的高質量要求。
為解決上述技術問題,本發(fā)明采用的技術方案是:
本發(fā)明提供一種基于翻譯記憶庫的神經機器翻譯方法,包括以下步驟:
1)通過網絡爬蟲技術從含有外文數據的網絡中爬取海量雙語數據;
2)對雙語數據進行清洗過濾、分詞、子詞切分預處理,得到處理后的雙語數據;
3)將一半處理后的雙語數據存儲為翻譯記憶庫基礎數據,另一半作為訓練語料,使用搜索技術找到翻譯記憶庫中與訓練語料中每個句子最相似的句子;
4)將訓練語料數據和翻譯記憶庫數據一起輸入到神經網絡模型中開始訓練模型至模型收斂;
5)導入用戶自定義的數據到翻譯記憶庫中,形成更符合用戶習慣的自定義翻譯記憶庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110661294.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種瑞巴派特的制備方法
- 下一篇:一種低輸入需求的無葉渦輪機及其盤體





