[發明專利]一種翻譯模型構建方法和系統在審
| 申請號: | 201410797926.8 | 申請日: | 2014-12-18 |
| 公開(公告)號: | CN104391842A | 公開(公告)日: | 2015-03-04 |
| 發明(設計)人: | 熊德意;王超超;張民 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 翻譯 模型 構建 方法 系統 | ||
技術領域
本發明屬于統計機器翻譯技術領域,尤其涉及一種翻譯模型構建方法和系統。
背景技術
近年來,隨著計算能力的提升和語料資源的不斷豐富,統計機器翻譯技術逐漸成為自然語言處理領域最重要的研究熱點。
統計機器翻譯的實現通常包括兩個主要過程:訓練和解碼。所謂訓練是指根據一定的算法從語料庫資源中訓練出統計翻譯模型;所謂解碼即翻譯,是指根據訓練出的翻譯模型對待翻譯文本進行翻譯。最初的統計機器翻譯方法是基于噪聲信道模型建立起來的,之后,研究人員在實踐中對該模型進一步泛化提出了基于最大熵思想的統計機器翻譯方法,在此基礎上,統計機器翻譯方法又分別經歷了基于詞、短語和句法的發展,或多或少的改善了機器翻譯的性能,即較之于之前的翻譯模型,基于詞、短語或句法的翻譯模型其翻譯性能有了一定程度的提升,但對于實現“信、達、雅”的翻譯目標仍十分遙遠。
發明內容
有鑒于此,本發明的目的在于提供一種翻譯模型構建方法和系統,以有效提升統計機器翻譯的翻譯質量,進一步推進其實現“信、達、雅”的翻譯目標。
為此,本發明公開如下技術方案:
一種翻譯模型構建方法,包括:
獲取雙語平行語料庫,所述雙語平行語料庫包括源語言句子到目標語言句子的對照翻譯;
利用所述雙語平行語料庫生成規則對齊表、單詞語義向量表和短語表,所述規則對齊表包括雙語對照的層次短語規則,所述單詞語義向量表包括雙語對照的單詞語義向量,所述短語表包括雙語對照的短語信息;
利用所述單詞語義向量表和所述短語表,生成源語言語義空間下的源語言短語語義向量表及目標語言語義空間下的目標語言短語語義向量表;
對所述源語言語義空間下的源語言短語語義向量表及目標語言語義空間下的目標語言短語語義向量表進行處理,得到翻譯模型。
上述方法,優選的,所述利用所述雙語平行語料庫生成規則對齊表、單詞語義向量表和短語表,包括:
對所述雙語平行語料庫進行預處理,得到詞對齊信息,所述詞對齊信息包括雙語對照的單詞詞語;
根據所述詞對齊信息生成規則對齊表,所述規則對齊表包括雙語對照的層次短語規則,所述層次短語規則可表示為:X→<γ,α,~>,其中,X是非終結符,γ和α是由終結符和非終結符構成的字符串,符號“~”表示出現在γ中的非終結符與出現在α中的非終結符之間的一一對應關系;
根據所述詞對齊信息生成單詞語義向量表,所述單詞語義向量表包括雙語對照的單詞語義向量,所述單詞語義向量通過結點互信息PMI計算得到:
其中,t表示目標單詞,ci表示在上下文窗口中與t相鄰的關聯詞,表示關聯詞ci與目標單詞t共現的次數,freqtotal表示所有單詞出現的次數,表示上下文單詞出現的次數,freqt表示目標詞出現的次數;
根據所述詞對齊信息生成短語表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410797926.8/2.html,轉載請聲明來源鉆瓜專利網。





