[發明專利]一種用單一網絡模型實現多個語種之間互譯的方法在審
| 申請號: | 202110792719.3 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113553866A | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 劉興宇;姜炎宏;楊木潤 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/279;G06K9/62 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 單一 網絡 模型 實現 語種 之間 方法 | ||
1.一種用單一網絡模型實現多個語種之間互譯的方法,其特征在于:
1)獲取互聯網中英語與阿拉伯語、德語、西班牙語、波斯語之間相互翻譯的雙語數據集;
2)對雙語數據進行數據清洗得到預處理后的雙語數據;
3)對預處理后的雙語數據使用加目標語標簽的方法構建多語言雙語平行語料庫;
4)使用構建好的雙語平行語料庫基于Fairseq開源系統構建多語種分析器,并訓練多語言神經機器翻譯模型;
5)將訓練完成的多語言神經機器翻譯模型進行封裝,與網頁接口進行整合,部署到線上,完成多語言神經機器翻譯系統的搭建。
2.根據權利要求1所述的用單一網絡模型實現多個語種之間互譯的方法,其特征在于:步驟1)在WMT和IWSLT官網中獲取包含英語和德語、英語和法語之間相互翻譯的初始語料庫,包括訓練集、驗證集和測試集,初步觀察數據的規模和質量,制定數據處理策略。
3.根據權利要求1所述的用單一網絡模型實現多個語種之間互譯的方法,其特征在于:步驟2)中對獲取的英語與阿拉伯語、德語、西班牙語、波斯語雙語語料依據預定的數據處理策略進行處理,步驟為:
201)使用re庫利用正則表達式去除IWSLT數據集中的各類標簽、url以及其他非雙語語料部分雜質數據;
202)將步驟201)得到的IWSLT數據與WMT原始數據進行按序合并作為總數據集;
203)利用Moses分詞工具將步驟202)得到的總數據集進行分詞,得到分詞后的總數據集;
204)利用Bpe分詞工具將步驟203)得到的總數據集進行切分子詞,生成BPE詞表,得到BPE切分子詞后的總數據集;
205)對驗證集和測試集采用和步驟201)步驟202)步驟203)步驟204)相同的處理方式。
4.根據權利要求1所述的用單一網絡模型實現多個語種之間互譯的方法,其特征在于:步驟3)中對步驟2)得到的總的數據集源語言句子的開頭加入本句所要翻譯到的目標語言標簽,使得網絡模型獲取翻譯到指定目標語言的能力。
5.根據權利要求1所述的用單一網絡模型實現多個語種之間互譯的方法,其特征在于:步驟4)中,使用構建好的雙語平行語料庫,基于Fairseq開源系統實現多語種分析器,并訓練多語言神經機器翻譯模型,步驟為:
401)對雙語平行語料庫使用fairseq-preprocess進行數據預處理,構建詞匯表并且對訓練數據進行二進制化;
402)對步驟401)預處理后的數據進行訓練;
403)對步驟402)訓練完的模型對測試集進行解碼測試,得到初步的模型性能;
404)嘗試加入目標語標簽和領域標簽、長度過濾、加入數據字典多種處理方案進行系統性能的提升。
6.根據權利要求1所述的用單一網絡模型實現多個語種之間互譯的方法,其特征在于:步驟5)中,將訓練完成的多語言神經機器翻譯模型進行封裝,部署到服務器上,完成多語言神經機器翻譯系統的搭建,步驟為:
501)將Fairseq框架interactive部分單獨封裝成接口,供flask后端調用;
502)通過Flask框架搭建Web系統前后端,并針對用戶異常操作行為,包括是否選擇語言、是否輸入句子、選擇的源語言和目標語言是否相同來進行翻譯接口的調用,返回相應的結果;
503)將權利要求5中訓練好的多語言神經機器翻譯模型通過Flask部署到服務器端,通過socket建立端口和網頁的連接,完成整個系統的搭建任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110792719.3/1.html,轉載請聲明來源鉆瓜專利網。





