[發明專利]一種基于神經網絡的古文翻譯方法有效
| 申請號: | 201910012805.0 | 申請日: | 2019-01-07 |
| 公開(公告)號: | CN109783825B | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 呂建成;楊可心;屈茜;劉大一恒 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F40/44 | 分類號: | G06F40/44;G06F40/289;G06F40/216;G06F40/247;G06N3/08 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 陳選中 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 古文 翻譯 方法 | ||
本發明公開了一種基于神經網絡的古文翻譯方法,其包括以下步驟:S1、獲取古文篇章及對應的翻譯數據作為初始樣本,S2、對初始樣本依次進行子句對齊、數據分詞和數據增廣操作,得到古文翻譯語料庫;S3、將古文翻譯語料庫作為神經機器翻譯模型的數據庫,對序列到序列模型進行訓練,得到訓練好的神經網絡;S4、將待翻譯的古文作為訓練好的神經網絡的輸入,完成對古文的翻譯。本發明通過引入多種詞典進行分詞,能夠給翻譯模型提供準確的人名地名以及俗語信息,改善專有名詞翻譯效果,且本發明可以自動進行子句對齊,能夠通過注意力機制完成字、詞之間的隱式對齊,并通過神經網絡對待翻譯的古文子句進行翻譯,有效提高翻譯效率和準確度。
技術領域
本發明涉及古文翻譯領域,具體涉及一種基于神經網絡的古文翻譯方法。
背景技術
古人在思想、科學、文藝上所達到的高度和取得的成就是中華民族智慧和血汗的結晶,作為民族瑰寶,是不可丟棄的。這些文化遺產大多以文獻的形式所承載,然而古人所用的語言和現代所用的語言有很大的區別,是現代人很難理解的,無形中為古文化研究設立了很高的門檻。過去只能通過古文化學者逐字逐句進行翻譯,耗時耗力,成本較高。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于神經網絡的古文翻譯方法解決了逐字逐句翻譯效率低的問題。
為了達到上述發明目的,本發明采用的技術方案為:
提供一種基于神經網絡的古文翻譯方法,其包括以下步驟:
S1、獲取古文篇章及對應的翻譯數據作為初始樣本,
S2、對初始樣本依次進行子句對齊、數據分詞和數據增廣操作,得到古文翻譯語料庫;
S3、將古文翻譯語料庫作為神經機器翻譯模型的數據庫,對序列到序列模型進行訓練,得到訓練好的神經網絡;
S4、將待翻譯的古文作為訓練好的神經網絡的輸入,完成對古文的翻譯。
進一步地,步驟S1的具體方法為:
從互聯網上爬取古文篇章及對應的翻譯數據,并對爬取的數據進行數據清洗,將清洗后的數據作為初始樣本。
進一步地,步驟S2中對初始樣本進行子句對齊的方法包括以下子步驟:
S2-1-1、對初始樣本中的現代漢語進行分詞,并按照從左至右的順序將古文與現代漢語進行匹配;
S2-1-2、將已經匹配的詞語從原句中刪除,對于沒有與現代漢語相對應的古文,引進古文字典建立逆文檔頻率詞典,并獲取每個未匹配古文字符的逆文檔頻率分數;
S2-1-3、檢索古文字典定義的每個不匹配的古文字符,并使用它與剩余的現代漢語詞匯進行匹配;
S2-1-4、根據公式
獲取詞法匹配的匹配度L(s,t);其中t表示現代漢語子句;s表示古文子句;|s|表示古文子句的長度;為指示函數,若s中的字符c能直接匹配上現代漢語子句t中的詞語則為1,否則為0;和分別為s和t中剩余的尚未匹配的字符所組成的字符串;為指示函數,若古文字符c的現代語解釋中能有某個字符k匹配上現代漢語中剩余的現代文詞匯,則從IDF詞典中取出它的分數,記為idfk,否則為0;β為逆文檔頻率的標準化參數;
S2-1-5、建立古文子句與現代漢語子句的翻譯對應模型;其中翻譯對應模型的翻譯對應方式包括1→0方式、0→1方式、1→1方式、1→2方式、2→1方式和2→2方式;→表示翻譯對應,→的前端為古文子句對應數目,→的后端為現代漢語子句對應數目;
S2-1-6、對于每個古文子句,獲取其翻譯對應模型中每種翻譯對應方式的概率Pr(a→b);0≤a,b≤2;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910012805.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于翻譯模型的翻譯方法、裝置及存儲介質
- 下一篇:一種文檔自動翻譯方法





