[發明專利]一種統計機器翻譯中的在線翻譯模型選擇方法有效
| 申請號: | 200710099724.6 | 申請日: | 2007-05-29 |
| 公開(公告)號: | CN101079028A | 公開(公告)日: | 2007-11-28 |
| 發明(設計)人: | 呂雅娟;劉群;黃瑾 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 | 代理人: | 高存秀 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 統計 機器翻譯 中的 在線翻譯 模型 選擇 方法 | ||
技術領域
本發明涉及統計機器翻譯技術領域,特別涉及統計機器翻譯系統的在線翻譯模型選擇方法。
背景技術
隨著信息時代的到來以及互聯網的迅猛發展,各國間的交流日益廣泛,人們對于機器翻譯的需求也越來越迫切。近年來,機器翻譯研究取得了很大的發展,尤其是以統計機器翻譯技術為代表的機器翻譯新技術取得了一定程度的突破,成為目前機器翻譯研究的主流。
機器翻譯方法可分為基于規則的機器翻譯方法(即規則機器翻譯方法)和基于統計的機器翻譯方法(統計機器翻譯方法)。在傳統的基于規則的機器翻譯方法中,翻譯知識主要體現為詞典和規則,而詞典和規則主要依靠人類專家來編寫。這種方法存在的主要問題有:人類專家編寫語言知識需要耗費大量的人力物力和時間;人類專家編寫的知識很難全面覆蓋真實翻譯環境中面臨的各種問題;人類專家編寫的語言知識在面臨沖突時沒有好的解決辦法;人類專家編寫的語言知識不方便移植到不同的語種和領域。而在統計機器翻譯中,所有的翻譯知識全部來源于真實的雙語平行語料庫(parallel?corpus),通過統計建模,自動學習雙語平行語料庫中的翻譯知識,因此克服了人類專家編寫知識所面臨的主要問題,而且容易移植到新的領域和語種上。由于具有嚴格的統計模型為依據,在克服知識的沖突上有比較合理的解決辦法,總體上可以到達較好的翻譯結果。這是目前基于統計的機器翻譯方法的翻譯質量可以超過基于規則的機器翻譯方法的主要原因。
統計機器翻譯系統的建立通常包括兩個主要過程:訓練和解碼。所謂訓練就是根據一定的算法從語料庫資源中自動估計出統計翻譯模型的參數;所謂解碼就是根據訓練過程得到的模型參數對輸入文本進行翻譯的過程,因此解碼通常也直接稱為翻譯。在參考文獻1“Peter?F.Brown,Stephen?A.Della?Pietra,Vincent?J.Della?Pietra,andPobert?L.Mercer.1993,The?Mathem?atics?of?Statistical?Machine?Translation:ParameterEstimation,Computational?Linguistics[J],vol.19,no.2,pages263-311”;參考文獻2“Philipp?Koehn,Franz?Joseph?Och,and?Daniel?Marcu.2003.Statistical?phrase-basedtranslation.In?Proceedings?of?Human?Language?Technology?Conference/North?Americanchapter?of?the?Association?for?Computational?Linguistics?annual?meeting?2003,pages127-133”;參考文獻3“Franz?J.Och?and?Hermann?Ney.2002.Discriminative?trainingand?maximum?entropy?models?for?statistical?machine?translation.In?Proceedings?of?the40th?Annual?Meeting?of?Association?for?Computational?Linguistics?2002,pages295-302.”中都有對現有技術中訓練和解碼過程的說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710099724.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:玻璃中氟離子含量的測量方法
- 下一篇:熔爐智能控制系統和方法





