[發明專利]一種基于強制解碼的動態抽取翻譯模板的方法有效
| 申請號: | 201610420062.7 | 申請日: | 2016-06-13 |
| 公開(公告)號: | CN107491441B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 王強;楊木潤;肖桐;朱靖波 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/42 | 分類號: | G06F40/42;G06F40/58 |
| 代理公司: | 沈陽優普達知識產權代理事務所(特殊普通合伙) 21234 | 代理人: | 李曉光 |
| 地址: | 110003 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強制 解碼 動態 抽取 翻譯 模板 方法 | ||
本發明涉及一種基于強制解碼的動態抽取翻譯模板的方法,步驟為:輸入雙語句子級平行數據,分別對源語和目標語分詞,得到平行句對;用基于短語的統計機器翻譯系統對每一個平行句對進行強制解碼,獲取翻譯推導信息及短語對對齊信息;輸入待翻譯的源語句子進行分詞,得到分詞后的待翻譯的源語句子;從平行句對中挑選出與分詞后的待翻譯的源語句子最相似的平行句對以及二者間的差異項;對對齊信息、從分詞后的平行句對中挑選與分詞后的待翻譯的源語句子最相似的平行句對以及二者間的差異項動態生成翻譯模板。本發明避免了非終結符粒度過大而錯過最佳翻譯模板以及非終結符粒度過小而無法應用翻譯模板,提高了翻譯模板的覆蓋度和使用率以及翻譯準確度。
技術領域
本發明涉及機器翻譯領域,具體來說是一種基于強制解碼的動態抽取翻譯模板的方法。
背景技術
翻譯模板是機器翻譯中一種翻譯知識的表示形式,能夠將源語(待翻譯內容)映射到目標語(被翻譯內容),其中源語和目標語是由常量和變量組成,屬于同步上下文無關文法(SCFG)。翻譯模板中的常量指具體詞匯,也叫終結符;變量稱為非終結符,且源語和目標語之間的非終結符之間一一對應。一個翻譯模板示例如下:
源語:我 想 去 操場 上 打 X
目標語:I want to play X in playground
其中,“我”,“想”等中文詞匯,以及”I”,”want”等英文詞匯,均稱為終結符;而其中的“X”表示非終結符,表示該位置可以作為變量被其他詞匯序列替換。
在應用翻譯模板執行翻譯時,只需將待翻譯句子與翻譯模板源語匹配,確定非終結符部分,并將相應的非終結符譯文放置到目標語中對應位置,即可完成翻譯任務,是一種高精度的翻譯方法。
例如,在應用上述翻譯模板對“我 想 去 操場 上 打 網球”這句話翻譯時,只需將待翻譯句子與翻譯模板的源語匹配,確定非終結符部分為“網球”,然后將“網球”的譯文“tennis”放置到目標語中X的位置便能得到高質量的翻譯結果“I want to play tennisin playground”。
生成翻譯模板的方法主要有兩種:人工書寫及自動抽取。
對于人工書寫方法,由于人工書寫的效率低、成本高,并且人工書寫也常常面臨書寫規范不統一、翻譯模板書寫前后沖突等問題,所以難以大規模應用。
而對于自動抽取方法,通常使用的方法是利用句法分析或詞匯間的固定搭配信息等方法確定單語句子中非終結符的部分,一般是名詞短語、形容詞短語等。然后利用自動詞對齊信息或外部資源(如互譯的雙語詞典)等方法識別非終結符之間的對應關系,從而產生翻譯模板。
通過上述方法,便可以從任何雙語句子級對齊的數據中抽取出翻譯模板,從而形成翻譯模板的集合,稱為翻譯模板庫。
由此可見,在傳統的自動抽取翻譯模板方法中,翻譯模板的抽取與翻譯模板的應用是兩個完全獨立的過程。當抽取翻譯模板時,只根據當前雙語句對的信息抽取翻譯模板,并沒有考慮待翻譯句子的信息;而在應用翻譯模板時,所有的翻譯模板是固定的,并不會因為待翻譯句子的不同而發生改變,因此稱上述自動抽取翻譯模板方法是靜態方法。
由于靜態抽取翻譯模板方法在抽取時并沒有考慮待翻譯句子的信息,非終結符部分始終都是固定的,所以在應用該方法產生的翻譯模板時面臨如下問題:
1.翻譯模板中非終結符粒度過大,導致待翻譯句子錯過潛在的更精確的翻譯模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610420062.7/2.html,轉載請聲明來源鉆瓜專利網。





