[發明專利]一種雙語最大名詞組塊分離-融合的翻譯方法有效
| 申請號: | 201310593728.5 | 申請日: | 2013-11-21 |
| 公開(公告)號: | CN103942192A | 公開(公告)日: | 2014-07-23 |
| 發明(設計)人: | 黃河燕;史樹敏;李業剛 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雙語 最大 詞組 分離 融合 翻譯 方法 | ||
技術領域
本發明涉及一種雙語最大名詞組塊分離-融合的翻譯方法,尤其適用于較長句子的翻譯,屬于計算機科學中的自然語言處理(NLP)技術領域。?
背景技術
最大名詞短語(MNP)是指不被其他任何名詞短語所包含的名詞短語。從句法功能上來看,MNP一般出現在句子的主語或賓語的位置,如果能夠很好地識別出句子中所有的MNP,就可以很方便地把握句子的整體結構框架。作為一項重要的應用基礎研究,MNP的自動識別與分析對于自然語言處理領域中的許多應用研究,包括句法分析、信息檢索、信息抽取、機器翻譯等,都具有重要的實踐意義。?
在計算機語言處理技術領域中,不同語言之間的機器翻譯問題本質上還是語言問題,所以機器翻譯問題的最終解決也必須依靠語言學知識的運用。語言學知識一般指的是源或目的語言的句法分析結構。典型的基于語言學語法的統計翻譯模型是基于樹的統計翻譯機器翻譯模型,指的是在漢語端,或者英語端,或者兩端同時利用語言學意義上的句法結構,是統計機器翻譯的一種新趨勢。?
目前,研究人員對MNP和基于樹的統計翻譯都進行了大量的研究,但是仍然存在諸多的問題。?
第一,在基于樹的統計機器翻譯中,句法分析錯誤會傳遞到翻譯解碼節點,使得翻譯準確率嚴重下降,中文句法分析不盡人意。因此,句法分析問題成為基于樹的統計機器翻譯的瓶頸。?
第二,在基于樹的統計翻譯模型中,翻譯解碼時間加上漢語句法分析的時間,其時間復雜度是句子長度的三次方。隨著句子的長度增加,翻譯時間將明顯增長,這對在線翻譯的影響顯而易見。所以,長句子的翻譯一直是個難點。?
第三,目前對漢英MNP的識別研究較多,但是由于漢英的語言差異比較大,MNP在機器翻譯中的一直沒有得到廣泛的應用。?
發明內容
本發明的目的是為了克服已有技術的缺陷,針對現有基于樹的統計機器翻譯模型在翻譯質量和翻譯實時性上的不足,通過定義一種比現有的MNP更具有應用性的雙語最大名詞組塊(BMNC),并在此基礎上提出一種雙語最大名詞組塊分離-融合的翻譯方法。?
本發明方法的基本原理是:采用一種分而治之的翻譯策略,把句子翻譯轉化為句子中所有雙語最大名詞組塊的翻譯和句子骨架的翻譯。首先,對待翻譯的句子進行BMNC識別,把所有BMNC抽取出來組成BMNC集合(用BMNCs表示);在原來的句子中,用BMNC的中心詞的詞性來代替BMNC整體,形成句子骨架。然后,對BMNCs和句子骨架分別進行句法分析。利用BMNC翻譯模型翻譯BMNC,得到英語BMNCs的n-best輸出;利用句子骨架翻譯模型翻譯句子骨架得到英語句子骨架的n-best輸出。最后,融合英語BMNCs和句子骨架,形成最后的翻譯結果。?
所述BMNC,是指具備雙語一致性的MNP。在雙語句對中,漢英MNP會存在不完全對譯的情況。BMNC不僅是一個完整的句法單元和語義單元,在句子中有穩定的外部修飾結構,還具備雙語可互譯性和雙語識別的一致性。在單語中它可能被其它名詞短語包含,但是它不能被可互譯的其它名詞短語包含。?
具體地,本發明方法包括以下步驟:?
步驟一、對待翻譯的句子進行BMNC識別,并將所有BMNC抽取出來組成BMNC集合;同時,在原來的句子中用BMNC的中心詞的詞性來代替BMNC整體,形成句子骨架。?
首先,從句法樹庫中隨機抽取2000句,提取BMNC并標注其中心詞,作為訓練語料。通過機器學習的方法,訓練BMNC及其中心詞的識別模型。然后,利用識別模型,對待翻譯的句子進行BMNC及其中心詞識別標注,提取句子中所有BMNC并組成BMNC集合——BMNCs,同時,將句子中的BMNC用其中心詞詞性代替形成句子骨架。?
所述識別模型可選用條件隨機域模型(CRF)或者支持向量機(SVM)。?
所述句法樹庫可選用賓州句法樹庫或者清華大學句法樹庫等。?
步驟二、建立BMNC和句子骨架的翻譯模型,翻譯經步驟一得到的BMNCs和句子骨架。?
為了翻譯步驟一中得到的BMNCs和句子骨架,首先訓練BMNC和句子骨架的翻譯模型。其流程如圖2所示,具體如下:?
在句子級別對齊的語料中抽取對齊的BMNC,建立BMNC平行語料庫。首先,分別對漢英句子進行BMNC粗識別,然后對BMNC進行識別對齊修正,最后通過一個貪心算法,得到句對最優的BMNC對集合。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310593728.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息處理方法及主題信息庫制作系統
- 下一篇:一種紙制包裝箱





