[發明專利]一種融合了句型模板和統計機器翻譯技術的翻譯方法有效
| 申請號: | 200610165532.6 | 申請日: | 2006-12-21 |
| 公開(公告)號: | CN101206643A | 公開(公告)日: | 2008-06-25 |
| 發明(設計)人: | 付雷;黃瑾;何中軍;呂雅娟;劉群 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 句型 模板 統計 機器翻譯 技術 翻譯 方法 | ||
技術領域
本發明涉及統計機器翻譯技術領域,尤其涉及一種融合了句型模板和統計機器翻譯技術的翻譯方法。
背景技術
隨著世界經濟的迅猛發展,各國間的文化,經濟等的交往越來越頻繁,人們每天的工作和生活有時不得不面對來自各個國家的各種語言的資料和信息,隨之而來的一個主要問題便是語言理解問題,如何能夠在較短的時間內理解使用非母語寫成的資料,成為了一個急需解決的問題。
因此,機器翻譯軟件應運而生,早期的機器翻譯主要集中在規則翻譯系統的研究,但翻譯規則的書寫需要語言專家的參與,而且通常每更換一個翻譯領域就要重寫一大批的規則,需要耗費大量的人力、物力、財力,在這種情形下,統計機器翻譯方法在機器翻譯領域迅速崛起。
統計機器翻譯通過利用大規模的平行雙語語料對翻譯系統進行訓練(統計建模),只要擁有足夠多的雙語平行語料,就可以在無人干預的情形下短時間內搭建一個任何語言對象之間的機器翻譯系統,而且從目前國際上主流的統計機器翻譯系統的效果來看,已基本上趕上甚至超越了規則翻譯系統。
但是,統計機器翻譯方法也仍然存在著一些缺陷。由于統計建模的過程中完全依賴于對平行語料的概率統計基礎之上,而沒有對句子的結構,句法等進行分析、利用,使得翻譯的句子常常會出現語序、多詞、少詞等方面的錯誤。
隨著統計機器翻譯技術近幾年的快速發展,逐漸將句法分析,規則等融入到統計機器翻譯系統中,一定程度上提高了系統的翻譯效果。但當把統計機器翻譯系統真正應用到某些領域的翻譯中時,仍然還是會存在一些問題,其中一個主要的問題就是不能充分利用該領域中的大量出現的固定句型的信息,這是因為統計機器翻譯在翻譯過程中完全是依賴于句子翻譯概率的計算,而很少去考慮句子的結構信息。因此,對這種固定句型的句子仍然單純的采用統計方法進行翻譯,翻譯結果往往都不能盡如人意。
發明內容
(一)要解決的技術問題
有鑒于此,本發明的主要目的在于提供一種融合了句型模板和統計機器翻譯技術的翻譯方法,以解決統計機器翻譯系統不能很好的翻譯具有固定句型結構的句子的問題,從而使對具有固定句型結構的句子的翻譯更加流暢,符合領域常用句型的翻譯結構。
(二)技術方案
為達到上述目的,本發明的技術方案是這樣實現的:
一種融合了句型模板和統計機器翻譯技術的翻譯方法,該方法包括:
A、配置句型模板,建立句型模板庫;
B、利用配置的句型模板對輸入的源語言進行匹配,如果匹配成功,則將輸入的源語言轉換成包含源語言詞語與目標語言詞語的句子,并執行步驟D;否則,執行步驟C;
C、將輸入的源語言按照標點符號切分成子句,對切分的子句進行匹配,將切分的子句轉換成包含源語言詞語與目標語言詞語的句子;
D、將匹配得到的包含源語言詞語與目標語言詞語的句子輸出給統計機器翻譯系統進行翻譯,得到翻譯結果。
所述步驟A包括:從大規模的語言資料庫中或從日常工作遇到的包含固定句型的句子中抽象出句型模板,并將抽象出的句型模板按照一定的策略加入到系統的句型模板庫中,建立句型模板庫。
所述句型模板包括模板的常量和模板的變量兩個部分。
配置句型模板庫中句型模板的優先級,步驟B中所述利用配置的句型模板對輸入的源語言進行匹配采用嵌套匹配策略進行,具體包括:按句型模板優先級由高到低的順序依次對輸入的源語言進行匹配,首先利用句型模板庫中優先級較高的句型模板對輸入的源語言進行匹配,然后利用句型模板庫中優先級較低的句型模板對輸入的源語言進行匹配,直至句型模板庫中沒有句型模板能夠匹配上輸入的源語言為止。
所述步驟C包括:按照句號、逗號、分號和冒號的先后順序依次對源語言進行切分,如果按照句號、逗號、分號和冒號中任何一種切分方式能夠將源語言切分成與句型模板相匹配的子句,則結束切分,對切分得到的子句進行匹配,并將切分得到的子句轉換成包含源語言詞語與目標語言詞語的句子。
所述匹配包括整句匹配和部分匹配兩種匹配方式,在采用整句匹配方式時,源語言的句首與句型模板的句首相對應,源語言的句尾與句型模板的句尾相對應;在采用部分匹配方式時,源語言中的部分詞語與句型模板中的部分詞語相對應。
所述步驟D包括:將匹配得到的包含源語言詞語與目標語言詞語的句子輸出給統計機器翻譯系統,統計機器翻譯系統將源語言切分成不同的短語,并到短語表中查找與所述短語相匹配的目標短語,順序連接目標短語構成不同的譯文,計算譯文的分數,選擇分數最高的譯文作為最終的譯文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610165532.6/2.html,轉載請聲明來源鉆瓜專利網。





