[發明專利]基于實例短語的機器翻譯方法無效
| 申請號: | 200910002334.1 | 申請日: | 2009-01-07 |
| 公開(公告)號: | CN101770458A | 公開(公告)日: | 2010-07-07 |
| 發明(設計)人: | 何亮;萬磊;王進 | 申請(專利權)人: | 三星電子(中國)研發中心;三星電子株式會社 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 韓明星;邱玲 |
| 地址: | 210008 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 實例 短語 機器翻譯 方法 | ||
技術領域
本發明涉及機器翻譯領域,具體來說是基于語料庫的機器翻譯,描述的是一種利用實例短語進行翻譯的方法。
背景技術
機器翻譯是將一種自然語言翻譯成另一種自然語言的自動翻譯系統。機器翻譯要解決的問題是利用計算機將源語言(SL)的句子或片段自動翻譯成對應的目標語言(TL)的句子或片段。機器翻譯系統的類型很多,包括基于實例的機器翻譯(EBMT)系統和基于短語的機器翻譯(PBMT)系統。
EBMT系統的基本思想是不通過深層的句子結構和語義的分析,僅僅通過已有的經驗知識,通過類比原理進行翻譯。這一思想的基本實現原理:系統的主要知識源是雙語對照的翻譯實例庫,每當輸入一個源語言句子S時,系統找出和S最為相似的句子S′,并模仿S′的譯文T′,將S和S′不匹配的地方進行翻譯,替換掉T′中對應的部分,最終構成S的譯文T然后輸出。其特點是只要存在相似度很高甚至一樣的例句,就能產生高質量的譯文。EBMT方法需要一個很大的實例庫作為支撐。
PBMT系統的基本思想是以短語作為翻譯的基本單位。在翻譯過程中,系統不是孤立地翻譯每個詞,而是將連續的多個詞一起翻譯。由于擴大了翻譯的粒度,基于短語的方法很容易處理局部上下文依賴關系,能夠很好地翻譯習語和常用詞搭配。一般地,在基于短語的方法中,短語可以是任意連續的字符串,沒有語法上的限制,這樣可以方便地從詞語對齊的雙語語料庫中自動抽取雙語短語翻譯為指定的一個源語言句子。基于短語的方法需要對系統進行訓練。訓練的時候,先輸入一個雙語語料庫,即一組互為翻譯的句子。從詞語對齊的結果中知道句子中哪些詞是互為翻譯的。接下來還需要進行短語抽取,也就是抽取出語料庫中所有互為翻譯的連續的詞串,而不用管這個詞串是否具有真正的含義。
然而,EBMT的缺陷在于:如果相似度閾值過高,則匹配成功率低;反之,如果相似度閾值過低,則模糊匹配時產生譯文質量較差。要在保證譯文質量的前提下提高匹配的成功率,只有建立大規模的實例庫,但這需要大量的時間、人力和物力。PBMT的缺陷在于:在對句子進行翻譯時,需要考慮所有可能的短語(只要是連續的詞串就可以被認作是短語),及這些短語的組合情況,這大大的降低了翻譯的速度;同時,對于較長的句子或短語,翻譯時需要處理大量的歧義,導致翻譯的效果不佳。另外,純粹的EBMT方法和PBMT方法沒有考慮對語料庫中沒有出現的未知詞的處理,尤其是大量的專業詞匯。一個處理方法是擴充實例庫或者雙語對齊語料庫,擴大其詞匯量的覆蓋范圍,但一方面實例庫和雙語對齊語料庫的建設需要大量的時間、人力和物力;另一方面,每當有新詞匯出現時,擴充語料庫之后都需要重新對系統進行訓練。
發明內容
根據本發明的一方面,將基于短語的機器翻譯方法和基于實例的思想相結合,在對現有的PBMT系統不作修改的前提下,引入基于實例的方法,充分利用已有的短語對齊數據,快速、高質量地對匹配的句子進行翻譯的優點,從而達到翻譯速度和翻譯質量的同步提高;同時,使用一個雙語詞典,結合利用已有的目標語言的語言模型,對翻譯結果中的未知詞進行翻譯,雙語詞典的構造難度大大低于雙語句對的構造難度,同時只需對詞典進行擴充即可翻譯新詞匯,而現有系統無需重新訓練。
根據本發明的一方面,提供了一種基于實例短語的機器翻譯方法,所述方法包括:根據從雙語對齊文本中獲得的詞對齊信息進行短語抽取,并獲得短語對齊表;根據短語對齊表,基于預定原則將源語言句子切分為若干短語;對經過切分后的短語進行基于短語的統計機器翻譯。
根據本發明的一方面,所述方法還可包括:利用雙語詞典和目標語言的語言模型對未知詞進行翻譯。
根據本發明的一方面,對源語言句子進行切分的步驟所基于的原則是:使得切分后的短語覆蓋率最高,其中,覆蓋率是指源語言句子中短語被覆蓋的總字數除以源語言句子的總字數,覆蓋是指切分出的短語存在于短語對齊表中。
根據本發明的一方面,在對源語言句子進行切分的步驟中使得切分后的短語覆蓋率最高的前提下,使源語言句子的短語數最少。
根據本發明的一方面,在使切分后的短語覆蓋率最高并使源語言句子的短語數最少的前提下,使切分出的短語最長。
根據本發明的一方面,可根據圖論中的求兩定點之間的最短路徑來將源語言句子切分為若干短語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子(中國)研發中心;三星電子株式會社,未經三星電子(中國)研發中心;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910002334.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種減少手機無效撥號的方法及裝置
- 下一篇:模具





