[發明專利]一種基于語料匹配和語法分析的機器翻譯方法及其系統有效
| 申請號: | 201410373465.1 | 申請日: | 2014-07-31 |
| 公開(公告)號: | CN105320650B | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 崔曉光;李斌 | 申請(專利權)人: | 崔曉光 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 北京易光知識產權代理有限公司 11596 | 代理人: | 應志超 |
| 地址: | 100080 北京市海淀區海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器翻譯 方法 及其 系統 | ||
一種機器翻譯方法及其系統,該方法采用語法分析與預存翻譯語料匹配交替使用的方式,逐次逐個地處理各個語言單位。在不能整體匹配的情況下,分斷語言單位,再在較小的語言單位的基礎上匹配翻譯,先形成局部譯文,然后再將局部譯文,按語言的修飾關系逐步整合,最終形成整句譯文。
技術領域
本發明關于一種機器翻譯方法及其系統,尤其關于基于語法分析和語料匹配交替使用的英中互譯機器翻譯方法和系統。
背景技術
語言機器翻譯大致經歷過三個階段。
最初人們試圖分析語言的語法,基于語言語法建立規則,從而實現機器翻譯。由于語言的語法規則最多能覆蓋60%左右的語言現象,相當多的語言現象無法包括在語法規則內。所以基于語法分析的翻譯質量,很快被基于語料比對翻譯的質量所超過。行業內,普遍以為整體語法分析的道路行不通,轉而在一些小的語言單位(又稱語言顆粒)上總結規律,制定規則,借此改進翻譯質量。但在細枝末節上下功夫,不能根本上解決翻譯問題。且,不同文體的語言材料,規律大不相同,換一種文體,又要改變或新制定規則。再者,這種以最小語言顆粒為核心,逐漸粘裹其他語言顆粒,而形成的較大語言單位,都是在語言末梢形成的局部譯文,語言整體結構的混亂,常常會將它們接搭錯位,從而造成誤解。
第二個階段是在語法分析不成功的情況下,徹底揚棄了語法分析,而走了一條將以前翻譯過的語料存儲起來,在翻譯新語言材料時,將新語料,以事先存儲的語料比對,匹配上的即將原存儲的語料調出使用的道路。這樣可以避免就相同的語料重復翻譯。只要原來存儲的語料譯文是準確的,重復利用的譯文的準確性是可以保證的。市面上的達多思翻譯軟件就屬這種。為了保證翻譯的準確性,達多思翻譯軟件采用以整句為一個翻譯單位。這種翻譯方式的缺點是,如果沒有事先翻譯過并存儲于計算機數據庫中的語言材料,就不能翻譯。整句作為一個翻譯單位,準確度大致可以保證,但語言單位過大,匹配率較低。以英文為例,英文的單詞有幾百萬個,韋氏大辭典收錄的就60多萬條,新英漢詞典收錄的有詞條有14萬多條;英文中專業文章句子較長,以專利文件為例,據統計,專利文件中,整句的平均詞量(依不同公司的專利文件統計),從20幾個到40幾個不等。就以20個詞放在少說15萬個詞(英文中幾百萬詞匯,主要是技術詞匯,專利文件中所面對的英文詞匯是任何其他英文文件所不能比擬的)中去排列組合,是一個無法算清的超天文數字。在這樣大的范圍內,尋找到一種特定的排列組合,是很難匹配上的。所以一個語言單位中單詞量越多,其排列組合越多,從而匹配的概率也就越小。所以達多思不是一個徹底的機器翻譯軟件,而是一個翻譯工具軟件,匹配不上或不能完全匹配上時,還需要人工翻譯。另外,一個翻譯者或一個翻譯單位建設數據庫的能力是有限的,面對幾乎是無限的詞匯組合形成的不同的句子,自建能覆蓋所有情況的數據庫幾乎是不可能的。況且,逐步建設和積累數據庫需要時間。在數據庫積累尚不足夠的情況下,達多思軟件也不好使用。
第三個階段,針對第二階段匹配翻譯數據庫不足的缺陷,產生了基于網絡大數據的匹配翻譯方式。谷歌翻譯是大數據翻譯代表。這種翻譯方式,在網絡海量數據的支持下,使語言材料的匹配率大幅上升,一定程度上克服了達多思語料數據庫不足的缺點。但隨意從網絡上抓取的翻譯材料,其精準度依然存在問題。另外,雖然網絡信息量超大,但對于一些長句子、某些專業的、小眾化的語言材料也無能為力,例如專利文件翻譯。這也是為什么在專利申請翻譯中,大多還是使用達多思翻譯軟件。
發明內容
本發明的目的之一是提供了一種基于語法規則和語料匹配的翻譯方法及其系統。
本發明的目的之二是提供了一種語料匹配--語法分析--語言單位分斷--語料匹配交替循環處理的翻譯及其系統。
本發明的目的之三是提供了一種多種語法和語料數據庫的翻譯方法及其系統。
本發明的目的之四是提供了一種以英語為中心可以相對多種語言進行英語到目標語言的翻譯的方法及其系統。
本發明的目的之五是提供了一種多種語言翻譯成英語目標語言的翻譯的方法及其系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于崔曉光,未經崔曉光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410373465.1/2.html,轉載請聲明來源鉆瓜專利網。





