[發明專利]一種基于萊文斯坦比的文言文-現代文翻譯系統構建方法在審
| 申請號: | 202110407920.5 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113033220A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/205;G06F40/284;G06F40/289 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 斯坦 文言文 現代文 翻譯 系統 構建 方法 | ||
本發明公開一種基于萊文斯坦比的文言文?現代文翻譯系統構建方法,步驟為:通過互聯網獲取文言文?現代文雙語數據;對雙語數據進行數據清洗得到預處理后的雙語數據;對預處理后的雙語數據使用基于萊文斯坦比的句對齊方法構建文言文?現代文雙語平行語料庫;使用構建好的雙語平行語料庫基于Tensor2Tensor開源系統訓練文言文?現代文神經機器翻譯模型;將訓練完成的文言文?現代文神經機器翻譯模型進行封裝,部署到線上,完成文言文?現代文神經機器翻譯系統的搭建。本發明在文言文?現代文雙語平行語料庫空缺的情況下實現性能較好的文言文?現代文神經翻譯系統,文言文?現代文雙語平行語料庫對于其他研究者將提供極大便利。
技術領域
本發明涉及一種翻譯系統的構建方法,具體為一種基于萊文斯坦比的文言文-現代文翻譯系統構建方法。
背景技術
自文化強國戰略提出以來,我國經濟、政治、文化的全球化發展,國與國之間的關系發展越來越密切,各國間的交流也越來越頻繁。而中華上下五千年優秀傳統文化的載體正是流傳至今的古代文集和詩詞古籍。但是由于古代漢語和現代漢語的差別較大,不僅阻礙了傳統文化向國外的傳播,連我們普通百姓閱讀古籍都十分困難。
從國內來講,目前古文翻譯的受眾群體主要是中學生、對古文有著濃厚興趣的群組和專門從事古文研究的專業人士。對于他們而言,雖然有一定的古文翻譯基礎,但個別生僻詞匯和短語仍然需要去查找翻譯。而紙質資料查閱起來十分麻煩,在線的古文翻譯系統像百度的文言文翻譯,對古文的翻譯依舊存在許多錯誤。這將對人們理解古文,了解優秀古代傳統文化造成了極大的不便利。從國外來講,外國友人所使用的在線翻譯系統僅僅支持本國語言到中文的翻譯,而中文到文言文的翻譯卻是一片空白,這將極大阻礙傳統文化的全球化推廣。
隨著科技日新月異的發展,機器翻譯技術成為人工智能里非常重要的一塊領域。機器翻譯,自20世紀30年代初露端倪以來,如今已取得了突破性進展。在提高翻譯效率、改變翻譯作業方式、促進翻譯多元發展中起著至關重要的作用。隨著科技的進步,機器翻譯方法也在不斷革新,從早期的基于規則的機器翻譯,到20世紀90年代基于統計的機器翻譯,再到現在隨著深度學習而崛起的基于神經網絡的機器翻譯,每一次革新,都會為現代翻譯業注入鮮活的生命力。
隨著深度學習的不斷發展,機器翻譯中越來越多的開始采用神經網絡學習方法,采用端到端的神經機器翻譯(Neural Machine Translation,NMT)因此得到了快速發展。它直接使用神經網絡實現源語到目標語的映射,相比于統計機器翻譯,由于神經機器翻譯不需要進行短語切分、詞對齊等步驟,也無需句法分析等語言學知識支持,人工成本低并且開發周期短,因此成為谷歌、百度等國內外公司機器翻譯系統的核心技術。
雖然現在的機器翻譯技術逐漸成熟,在像英語、法語、德語等大眾化語言上的翻譯效果十分出色,但是對于小語種和方言支持的還是比較少的,而文言文翻譯更是鮮有人來做。目前國內可以翻譯小語種的平臺主要是小牛翻譯和百度翻譯,而國際上主要是谷歌翻譯。但是針對文言文-現代文的翻譯平臺國內外只有百度翻譯少有涉及,但是目前翻譯質量較低,與人工翻譯文言文的水平還有一定差距。
目前無論是在國內還是國外,文言文-現代文機器翻譯系統的研究都極度稀缺,文言文-現代文的平行語料更是少之又少,而且無法直接獲取,文言文-現代文翻譯仍處于一片空白的狀態,嚴重阻礙了中國古代優秀傳統文化的傳播和推廣。
發明內容
針對文言文-現代文雙語數據無法直接獲取平行語料搭建機器翻譯系統,嚴重阻礙了中國古代優秀傳統文化的傳播和推廣等不足,本發明要解決的技術問題是提供一種基于萊文斯坦比的文言文-現代文翻譯系統構建方法,構建了文言文-現代文雙語平行語料庫,之后通過訓練得到神經機器翻譯系統,填補了國內外文言文-現代文機器翻譯系統的空白。
為解決上述技術性問題,本發明采用的技術方案是:
本發明提供一種基于萊文斯坦比的文言文-現代文翻譯系統構建方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110407920.5/2.html,轉載請聲明來源鉆瓜專利網。





