[發明專利]一種基于萊文斯坦比的文言文-現代文翻譯系統構建方法在審
| 申請號: | 202110407920.5 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113033220A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/205;G06F40/284;G06F40/289 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 斯坦 文言文 現代文 翻譯 系統 構建 方法 | ||
1.一種基于萊文斯坦比的文言文-現代文翻譯系統構建方法,其特征在于包括以下步驟:
1)通過互聯網獲取文言文-現代文雙語數據;
2)對雙語數據進行數據清洗得到預處理后的雙語數據;
3)對預處理后的雙語數據使用基于萊文斯坦比的句對齊方法構建文言文-現代文雙語平行語料庫;
4)使用構建好的雙語平行語料庫訓練文言文-現代文神經機器翻譯模型;
5)將訓練完成的文言文-現代文神經機器翻譯模型進行封裝,部署到線上,完成文言文-現代文神經機器翻譯系統的搭建。
2.按權利要求1所述的基于萊文斯坦比的文言文-現代文翻譯系統構建方法,其特征在于:步驟1)中獲取文言文-現代文雙語數據,步驟為:
101)使用搜索引擎得到含有文言文-現代文雙語語料資源的網站作為數據來源;
102)對于文言文-現代文雙語語料資源網站使用Requests庫得到HTML網頁;
103)對于得到的HTML網頁使用Beautiful Soup庫進行解析,得到文本內容;
104)對于文本內容利用正則表達式提取文言文-現代文雙語數據。
3.按照權利要求1所述的基于萊文斯坦比的文言文-現代文翻譯系統構建方法,其特征在于:步驟2)中對雙語數據進行數據清洗,包括去除HTML標簽方法、過濾雙語數據中亂碼方法、過濾雙語數據中括號內容不對應方法以及過濾雙語數據詞數過多方法,之后得到預處理后的雙語數據。
4.按照權利要求1所述的基于萊文斯坦比的文言文-現代文翻譯系統構建方法,其特征在于:步驟3)中對權利要求3中經過預處理后的雙語數據,使用基于萊文斯坦比的句對齊方法構建文言文-現代文雙語平行語料庫,步驟為:
301)將預處理后的雙語數據進行分句處理;
302)取N句文言文和M句現代文(N=1,M=1)進行匹配,從文言文中取1句(N=1)或依次取1~(N-1)句(N1)與現代文的1句計算萊文斯坦比,保存比值最高的結果,將對應的文言文和現代文從初始集合中去除;
303)循環執行步驟302),直到文言文句對匹配結束或者現代文句對匹配結束;
304)對于步驟303)中得到的匹配后的雙語句對,去除萊文斯坦比得分低于第一閾值或長度比大于第二閾值的句對,完成文言文-現代文雙語平行語料庫的構建。
5.按照權利要求1所述的基于萊文斯坦比的文言文-現代文翻譯系統構建方法,其特征在于:步驟4)使用構建好的雙語平行語料庫基于Tensor2Tensor開源系統訓練文言文-現代文神經機器翻譯模型,步驟為:
401)對文言文-現代文雙語平行語料庫數據進行分詞預處理;
402)對于預處理后的數據提取校驗集、訓練集和測試集;
403)對于步驟402)中的訓練集數據生成BPE詞表,并做BPE切分生成Tensor2Tensor輸入數據流;
404)對于Tensor2Tensor輸入數據流進行模型訓練,得到文言文-現代文神經機器翻譯模型。
6.按照權利要求1所述的基于萊文斯坦比的文言文-現代文翻譯系統構建方法,其特征在于:步驟5)將訓練完成的文言文-現代文神經機器翻譯模型進行封裝,部署到線上,完成文言文-現代文神經機器翻譯系統的搭建,步驟為:
501)將訓練好的文言文-現代文神經機器翻譯模型通過Flask部署到服務器端;
502)通過socket建立端口與網頁的連接,完成文言文-現代文神經機器翻譯系統的搭建。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110407920.5/1.html,轉載請聲明來源鉆瓜專利網。





