[發明專利]模式化雙語句對形成方法及其形成裝置有效
| 申請號: | 200910180877.2 | 申請日: | 2009-10-20 |
| 公開(公告)號: | CN102043773A | 公開(公告)日: | 2011-05-04 |
| 發明(設計)人: | 張龍哺 | 申請(專利權)人: | 張龍哺 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100029 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模式 雙語 形成 方法 及其 裝置 | ||
發明領域
本發明涉及計算機翻譯技術領域中的智能化翻譯知識的建立與積累技術,更具體地,涉及模式化雙語句對形成方法及其形成裝置。
發明背景
自從上個世紀30年代,人們就提出了機器翻譯的設想。隨著計算機技術的發展,先后出現了各種類型的計算機翻譯系統和技術,比如ED(電子詞典)、MT(機器翻譯)、TM(翻譯存儲器)、IT(交互翻譯)和CAT(計算機輔助翻譯)等等。
這些系統分別用不同的方法針對自然語言的某些方面進行語言轉換工作。其中,電子詞典只能對單詞進行翻譯或查找。
傳統的MT技術是基于語法規則對語言進行轉換,其中語法規則是語言專家撰寫的,并由程序員寫在翻譯程序中的,它只能由程序員添加和修改。由于語言的豐富性和靈活性,靠少量的語法規則是不可能覆蓋所有的語言現象的。因此傳統的MT技術不能獲得好的翻譯質量,尤其是針對長句子和句型復雜的句子。
隨著計算機運算速度和記錄介質的存儲容量的迅速提高,人們于上世紀90年代提出了基于統計的翻譯技術,即翻譯存儲器技術(TM)。其基本思路是海量存儲雙語句對,對于已經翻譯過或已存儲的原文句子,只要提取出相應的譯文,就能得到準確的翻譯結果。因此,TM技術為計算機翻譯技術指出了一條高質量準確翻譯的方向。
圖1A示出傳統的采用TM翻譯技術的翻譯方案。其中,TM翻譯模式將輸入的原文句子與語料庫的雙語句對的原文部分相比較(匹配)。如果完全匹配或滿足規定的匹配率,則將雙語句對的譯文部分作為TM翻譯結果輸出。
圖1B顯示了傳統的句對記錄方法所記錄的句對例子。即在左邊部分記錄原文,在右邊部分記錄譯文,中間用分隔符分開。其中,原文和譯文都是常規的文字內容,即單詞(字)、標點符號等。其中,除了原文與譯文之間的分隔符之外,不存在其它用于幫助翻譯的信息。因此,這種句對的作用是非常有限的。也就是說,除了相同的句子能給出準確的翻譯結果外,對于類似的句子也不能給出準確的翻譯結果。
因此,使用傳統的TM技術,就必須積累所有可能出現的句子和翻譯句對。但由于語言的靈活性和豐富性,以及各個作者寫作的隨意性,要積累某種翻譯語言對中所有句子幾乎是不可能完成的事情。這是因為所說句子量是無限的或不可估量的。在實踐中,我們在某個專業中積累了幾十萬個句對,花費了許多人力和財力,但在進行翻譯測試時,只有千分之幾的覆蓋率。因此,TM計算機翻譯技術又碰到了巨大的障礙。由此,人們反過來又想起傳統MT技術的好處了,即用少量的語法規則或句型來覆蓋更多的句子。或者將MT技術與TM技術結合起來,形成多策略的翻譯技術。
另外,近幾年也出現了一些TM改進技術,比如將句型用于TM技術方案,其目的是用句型庫中存儲的句型來覆蓋更多的句子。其原理是將翻譯的例句抽象成為一個句型,在翻譯時也先將要翻譯的句子進行語法分析并抽象為一個語法樹結構,然后再用上述句型與要翻譯的句子進行譯文的創建(翻譯)。這種方法實際上又回到了傳統MT技術的老路上,首先是因為將例句抽象成語法句型是一件很費時且費力的工作,而且不能自動進行。目前還沒有看到實用化的句型積累方法和工具。
本申請的發明人,基于多年對人類大腦的翻譯思維以及外語學習和記憶的研究,提出了一整套模擬人腦記憶和存儲翻譯知識的體系,即博典(Bodian)智能化知識庫體系,及其相應的超級智能計算機翻譯技術(TM++)。該智能化知識庫體系中,句對不是簡單的原文加譯文形式,也不是上面所說的抽象化句型,而一種基于實例的模式化句對。該模式化句對翻譯理論的優點是:1、將復雜抽象的語法具體化和實例化,便于理解和實施;2、在智能化翻譯技術中,該模式化句對非常適用,因為它對兼翻譯實例和翻譯句型于一體,既保留具體翻譯句對的獨特性又具有翻譯句型的普遍性。圖2A-2C和圖3A-3C顯示了基于實例的模式化句對(簡稱為模式化句對)的一些例子。
本申請的發明人還發明了多種方法、裝置和系統來實現所述智能化知識庫體系和應用所述智能化知識庫體系。
發明內容
本申請的發明目的就是要提供模式化句對的形成方法及其形成裝置。
利用所述的模式化句對的形成方法及其形成裝置,可以快速高效地形成和積累模式化句對。并可將智能化知識庫的知識積累面向所有用戶,可以在用戶翻譯的同時,機器自動進行智能化翻譯知識的形成和積累。這徹底擺脫了傳統翻譯軟件由語言專家制定翻譯規則或句型并由軟件專業技術人員寫入或更新的束縛,并將大大加快智能化知識庫的開發和完善速度。因此,為早日實現高質量的全自動機器翻譯提供了可行的技術解決方案。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張龍哺,未經張龍哺許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910180877.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于安裝光伏模塊的接線盒子結構
- 下一篇:太陽能板支架





