[發明專利]一種基于特征性句干提取的機器翻譯方法及裝置有效
| 申請號: | 201810544842.1 | 申請日: | 2018-05-31 |
| 公開(公告)號: | CN108763229B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 李晶潔;胡文杰 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 上海統攝知識產權代理事務所(普通合伙) 31303 | 代理人: | 金利琴 |
| 地址: | 201620 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 性句干 提取 機器翻譯 方法 裝置 | ||
本發明涉及一種基于特征性句干提取的機器翻譯方法及裝置,具體為:1)在語言A語料庫中獲取多詞序列并識別結構滿足句干要求的序列;2)基于內部粘著力、外部邊界獨立性及篇章分布域確定特征性句干并基于MIN?MAX歸一化算法和局部最大值消重法對其篩選;3)翻譯特征性句干得特征性句干數據庫;4)輸入待翻譯的語言A文本,逐句提取句干,在特征性句干數據庫中查找句干譯文,翻譯句干外的詞語并將其譯文按照目標語言B的語序組合到句干譯文中得到譯文。裝置包括特征性句干數據庫單元、語言輸入單元、句干提取單元、句干識別單元、翻譯單元及組合單元。本發明的機器翻譯方法及裝置,翻譯效率高,處理時間短,極具應用前景。
技術領域
本發明屬于機器翻譯領域,涉及一種基于特征性句干提取的機器翻譯方法與裝置,具體涉及一種基于語料庫提取特征性句干的機器翻譯方法及裝置。
背景技術
從早期的詞典匹配到詞典結合語言學專家知識的規則翻譯,再到基于語料庫的統計機器翻譯,隨著計算機計算能力的提升和多語言信息的爆發式增長,機器翻譯技術逐漸走出象牙塔,開始為普通用戶提供實時便捷的翻譯服務。
基于語料庫的機器翻譯方法開始成為機器翻譯領域研究的主要方向。由Sinclair團隊倡導的語料庫驅動的翻譯對等研究方法正是在這樣的背景下產生。翻譯對等的核心思想為兩種(或多種)語言間存在翻譯對等(translation equivalence),即語料庫L1中某個詞的文本環境和語料庫L2中的翻譯對等詞(translation equivalent)有密切關聯。通過計算機識別詞語的文本環境,就可以此來確定L1中該詞語的每次實際出現分別對應著L2中的哪個詞。
基于此構建機器翻譯模型的步驟如下:1)利用Wordsmith等工具在JDEST中檢索索引證據,描述特征性句干的形式和意義特征,確立形式和功能的對應關系;2)在平行語料庫中,尋找漢語或目標語言譯文,將頻數較高的翻譯確定為“潛在對等單位”(potentialequivalent);3)將潛在對等單位輸入漢語或目標語言語料庫中進行檢驗,考察其形式和功能特征,最終在語境中確立兩者的對應程度。在這一模型中,特征性句干(sentence stem)是指學術英語語料庫中實施語篇組織和態度表達功能的高頻半固定句級序列,是一類特殊的小句級別的短語單位,它包含主謂結構,是句子的核心。對于它的提取一直以來都是機器翻譯尤其是對等翻譯領域的技術難點。
而近年來,隨著計算能力不斷的提升和語料資源的不斷豐富,短語學研究也不斷深入,特征性句干提取技術的發展漸現曙光。現有的短語單位的自動提取方法主要有以下兩類:1)頻數閾值法,主要是用于生成初步的候選序列,其優勢是計算復雜性低,但缺點在于識別的準確率和召回率較低;2)關聯測量值法,其使用迭代或組合判斷,可將提取技術擴展到多詞序列,一定程度提高了其識別的準確率,但問題是進行學術英語文本翻譯時,現有的關聯測量值法抽取的多詞序列超過半數都是專業術語或名詞短語,同一語言結構的序列超過95%,而句干類別的跨結構單位的序列尤其是特征性句干極少,句干不同于專業術語或名詞短語,其內部關聯度較低,而且邊界難確定,現有的術語提取方法不能直接用于特定句干的識別判斷。雖然目前短語單位的自動提取方法有了一定的發展,但是上述方法僅僅是對于簡單短語的提取,不能滿足提取篇章性句干以用于機器翻譯的實際需求。
因此,如何有效地從海量數據中自動識別和抽取特征性句干進而進行機器翻譯,成為亟待解決的重要問題。
發明內容
本發明的目的是為了克服現有技術對跨語種文本翻譯質量低下、準確率低的缺陷,提供一種特征性句干提取精準、處理量小且對跨語種文本翻譯質量好、準確率高的基于特征性句干提取的機器翻譯方法與裝置。本發明利用特征性句干的特性,設法提取特征性句干,提升機器翻譯效果,本發明提出了利用MIN-MAX歸一化算法消重處理,并提取特征性句干的方法,以此改進機器翻譯的機器翻譯方法和機器翻譯裝置,可以有效改進機器翻譯的質量。
為了達到上述目的,本發明采用的技術方案為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810544842.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自然語言輔助處理系統
- 下一篇:利用外部信息的神經機器翻譯方法





