[發(fā)明專利]雙語句對(duì)模式化記錄方法以及翻譯方法和翻譯系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 200910162384.6 | 申請(qǐng)日: | 2009-08-14 |
| 公開(公告)號(hào): | CN101996166A | 公開(公告)日: | 2011-03-30 |
| 發(fā)明(設(shè)計(jì))人: | 張龍哺 | 申請(qǐng)(專利權(quán))人: | 張龍哺 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100029 北京市朝*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 雙語 模式 記錄 方法 以及 翻譯 系統(tǒng) | ||
發(fā)明領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)翻譯技術(shù)領(lǐng)域,更具體地,涉及雙語句對(duì)模式化記錄方法以及基于雙語模式化句對(duì)的翻譯方法和翻譯系統(tǒng)。
發(fā)明背景
語言翻譯是一門科學(xué)、一門藝術(shù)。由于語言的種類繁多、干變?nèi)f化。要使一種語言轉(zhuǎn)換成另一種語言,需要付出大量創(chuàng)造性的勞動(dòng)。自從上個(gè)世紀(jì)30年代,人們就提出了機(jī)器翻譯的設(shè)想。隨著計(jì)算機(jī)技術(shù)的發(fā)展,先后出現(xiàn)了各種類型的計(jì)算機(jī)翻譯系統(tǒng)和技術(shù),比如ED(電子詞典)、MT(機(jī)器翻譯)、TM(翻譯存儲(chǔ)器)、IT(交互翻譯)和CAT(計(jì)算機(jī)輔助翻譯)等等。
這些系統(tǒng)分別用不同的方法針對(duì)自然語言的某些方面進(jìn)行語言轉(zhuǎn)換工作。其中,電子詞典只能對(duì)單詞進(jìn)行翻譯或查找。
傳統(tǒng)的MT技術(shù)是基于語法規(guī)則對(duì)語言進(jìn)行轉(zhuǎn)換,其中語法規(guī)則是語言專家撰寫的,并由程序員寫在翻譯程序中的,它只能由程序員添加和修改。由于語言的豐富性和靈活性,靠少量的語法規(guī)則是不可能覆蓋所有的語言現(xiàn)象的。因此傳統(tǒng)的MT技術(shù)不能獲得好的翻譯質(zhì)量,尤其是針對(duì)長(zhǎng)句子和句型復(fù)雜的句子。
隨著計(jì)算機(jī)運(yùn)算速度和記錄介質(zhì)的存儲(chǔ)容量的迅速提高,人們于上世紀(jì)90年代提出了基于統(tǒng)計(jì)的翻譯技術(shù),即翻譯存儲(chǔ)器技術(shù)(TM)。其基本思路是海量存儲(chǔ)雙語句對(duì),對(duì)于已經(jīng)翻譯過或已存儲(chǔ)的原文句子,只要提取出相應(yīng)的譯文,就能得到準(zhǔn)確的翻譯結(jié)果。因此,TM技術(shù)為計(jì)算機(jī)翻譯技術(shù)指出了一條高質(zhì)量準(zhǔn)確翻譯的方向。
圖1A示出傳統(tǒng)的采用TM翻譯技術(shù)的翻譯方案。其中,TM翻譯模式將輸入的原文句子與語料庫的雙語句對(duì)的原文部分相比較(匹配)。如果完全匹配或滿足規(guī)定的匹配率,則將雙語句對(duì)的譯文部分作為TM翻譯結(jié)果輸出。
圖1B顯示了傳統(tǒng)的句對(duì)記錄方法所記錄的句對(duì)例子。即在左邊部分記錄原文,在右邊部分記錄譯文,中間用分隔符分開。其中,原文和譯文都是常規(guī)的文字內(nèi)容,即單詞(字)、標(biāo)點(diǎn)符號(hào)等。其中,除了原文與譯文之間的分隔符之外,不存在其它用于幫助翻譯的信息。因此,這種句對(duì)的作用是非常有限的。也就是說,除了相同的句子能給出準(zhǔn)確的翻譯結(jié)果外,對(duì)于類似的句子也不能給出準(zhǔn)確的翻譯結(jié)果。
因此,使用傳統(tǒng)的TM技術(shù),就必須積累所有可能出現(xiàn)的句子和翻譯句對(duì)。但由于語言的靈活性和豐富性,以及各個(gè)作者寫作的隨意性,要積累某種翻譯語言對(duì)中所有句子幾乎是不可能完成的事情。這是因?yàn)樗f句子量是無限的或不可估量的。在實(shí)踐中,我們?cè)谀硞€(gè)專業(yè)中積累了幾十萬個(gè)句對(duì),花費(fèi)了許多人力和財(cái)力,但在進(jìn)行翻譯測(cè)試時(shí),只有千分之幾的覆蓋率。因此,TM計(jì)算機(jī)翻譯技術(shù)又碰到了巨大的障礙。由此,人們反過來又想起傳統(tǒng)MT技術(shù)的好處了,即用少量的語法規(guī)則或句型來覆蓋更多的句子。或者將MT技術(shù)與TM技術(shù)結(jié)合起來,形成多策略的翻譯技術(shù)。
本發(fā)明人于上世紀(jì)80年代開始研究計(jì)算機(jī)翻譯技術(shù),并于2003年開始研究智能化知識(shí)庫理論以及相應(yīng)的計(jì)算機(jī)智能翻譯技術(shù),尤其是其中的智能化翻譯句對(duì)記錄和存儲(chǔ)技術(shù),即采用人工智能方式來提高翻譯句對(duì)的使用效率,也稱為覆蓋率,相關(guān)的信息可以參見愛譯網(wǎng):www.aitrans.net。
另外,近幾年也出現(xiàn)了一些TM改進(jìn)技術(shù),比如將句型用于TM技術(shù)方案,其目的是用句型庫中存儲(chǔ)的句型來覆蓋更多的句子。其原理是將翻譯的例句抽象成為一個(gè)句型,在翻譯時(shí)也先將要翻譯的句子進(jìn)行語法分析并抽象為一個(gè)語法樹結(jié)構(gòu),然后再用上述句型與要翻譯的句子進(jìn)行譯文的創(chuàng)建(翻譯)。這種方法實(shí)際上又回到了傳統(tǒng)MT技術(shù)的老路上,首先是因?yàn)閷⒗涑橄蟪烧Z法句型是一件很費(fèi)時(shí)且費(fèi)力的工作,而且不能自動(dòng)進(jìn)行。另外,雖然采用句型可提高翻譯的覆蓋率,即增強(qiáng)了普遍性,但同時(shí)它也損失了句子的獨(dú)特性,反而會(huì)影響?yīng)毺鼐渥拥姆g準(zhǔn)確性。由于句型匹配算法的不完善并且缺乏有效的句型積累手段,目前還沒有看到這種技術(shù)的實(shí)用化例子。
發(fā)明內(nèi)容
本申請(qǐng)的發(fā)明目的是要提供一種基于實(shí)例的智能化句對(duì)記錄方法,利用該智能化句對(duì),計(jì)算機(jī)能執(zhí)行高級(jí)的智能翻譯和處理。所述智能化句對(duì)兼翻譯實(shí)例和翻譯模式于一身,因此它能保留具體翻譯句對(duì)的獨(dú)特性又具有翻譯模式的普遍性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于張龍哺,未經(jīng)張龍哺許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910162384.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:微生物檢測(cè)和計(jì)數(shù)
- 下一篇:墓碑
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 訓(xùn)練雙語詞對(duì)齊模型的方法和裝置、雙語詞對(duì)齊方法和裝置
- 雙語詞對(duì)齊方法和裝置、訓(xùn)練雙語詞對(duì)齊模型的方法和裝置
- 一種從互聯(lián)網(wǎng)上自動(dòng)提取雙語翻譯詞典的方法
- 一種語料劃分領(lǐng)域的方法和裝置
- 一種雙語新聞聚合方法及系統(tǒng)
- 語料質(zhì)量評(píng)估模型生成方法和雙語句對(duì)互譯質(zhì)量評(píng)估方法
- 雙語詞庫的自動(dòng)更新方法、裝置與電子設(shè)備
- 信息處理方法、裝置及存儲(chǔ)介質(zhì)
- 基于專利數(shù)據(jù)的半自動(dòng)化翻譯雙語模板的構(gòu)建方法及系統(tǒng)
- 雙語語料篩選方法、裝置及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





