[發明專利]翻譯模型的訓練與翻譯方法、裝置有效
| 申請號: | 202110736621.6 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113408303B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 王曦陽;張睿卿;何中軍;李芝;吳華 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 模型 訓練 方法 裝置 | ||
1.一種翻譯模型的訓練方法,包括:
獲取第一訓練數據,所述第一訓練數據中包含多個第一訓練文本、多個第一訓練文本的前文文本與多個第一訓練文本的譯文標注結果;
構建包含記憶模塊、編碼模塊與解碼模塊的神經網絡模型,所述記憶模塊用于根據當前的記憶向量與所述編碼模塊得到的第一編碼向量,輸出更新后的記憶向量與用于輸入所述解碼模塊的第二編碼向量,所述解碼模塊用于根據所述記憶模塊輸出的第二編碼向量、所述編碼模塊輸出的對應第一訓練文本的編碼向量以及對應第一訓練文本的前文文本的編碼向量,輸出對應第一訓練文本的譯文輸出結果;
使用多個第一訓練文本、多個第一訓練文本的前文文本與多個第一訓練文本的譯文標注結果訓練所述神經網絡模型,得到翻譯模型;
其中,所述編碼模塊得到第一編碼向量包括:
根據所輸入的起始符、第一訓練文本與第一訓練文本的前文文本,分別輸出對應于所述起始符的編碼向量、對應于所述第一訓練文本的編碼向量與對應于所述前文文本的編碼向量,所述起始符為位于所述第一訓練文本之前的字符;
將對應于所述起始符的編碼向量作為所述第一編碼向量。
2.根據權利要求1所述的方法,其中,所述使用多個第一訓練文本、多個第一訓練文本的前文文本與多個第一訓練文本的譯文標注結果訓練所述神經網絡模型,得到翻譯模型包括:
針對每個第一訓練文本,將該第一訓練文本與該第一訓練文本的前文文本作為所述編碼模塊的輸入,得到所述編碼模塊輸出的第一編碼向量、對應于該第一訓練文本的編碼向量與對應于該前文文本的編碼向量;
將當前的記憶向量與所述第一編碼向量作為所述記憶模塊的輸入,得到所述記憶模塊輸出的更新后的記憶向量與第二編碼向量;
將所述第二編碼向量、對應于該第一訓練文本的編碼向量與對應于該前文文本的編碼向量作為所述解碼模塊的輸入,得到所述解碼模塊輸出的對應該第一訓練文本的譯文輸出結果;
使用該第一訓練文本的譯文標注結果與譯文輸出結果計算損失函數值,根據計算得到的損失函數值調整所述神經網絡模型的參數,直至所述神經網絡模型收斂,得到所述翻譯模型。
3.根據權利要求1所述的方法,其中,所述構建包含記憶模塊、編碼模塊與解碼模塊的神經網絡模型包括:
獲取第二訓練數據,所述第二訓練數據中包含多個第二訓練文本;
使用多個第二訓練文本對目標模型進行預訓練,得到預訓練之后的目標模型中的目標編碼模塊的參數與目標解碼模塊的參數;
構建包含記憶模塊、編碼模塊與解碼模塊的神經網絡模型,使用所述目標編碼模塊的參數對所述神經網絡模型中的編碼模塊的參數進行初始化,使用所述目標解碼模塊的參數對所述神經網絡模型中的解碼模塊的參數進行初始化。
4.一種翻譯方法,包括:
獲取待翻譯篇章,確定所述待翻譯篇章中的待翻譯文本與所述待翻譯文本的前文文本;
針對每個待翻譯文本,將該待翻譯文本與該待翻譯文本的前文文本輸入翻譯模型,根據所述翻譯模型的輸出結果得到所述待翻譯文本的譯文輸出結果;
根據每個待翻譯文本的譯文輸出結果,得到所述待翻譯篇章的翻譯結果;
其中,所述翻譯模型是根據權利要求1-3中任一項方法預先訓練得到的;
所述針對每個待翻譯文本,將該待翻譯文本與該待翻譯文本的前文文本輸入翻譯模型包括:
針對每個待翻譯文本,將起始符、該待翻譯文本與該待翻譯文本的前文文本輸入翻譯模型,所述起始符為位于所述待翻譯文本之前的字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110736621.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種超薄規格65Mn冷軋寬鋼帶及其制造方法
- 下一篇:一種顯示裝置





