[其他]語言翻譯系統無效
| 申請號: | 87106964 | 申請日: | 1987-10-03 |
| 公開(公告)號: | CN87106964A | 公開(公告)日: | 1988-06-01 |
| 發明(設計)人: | 弗雷德里克·沃里克·邁克爾·斯坦蒂福德;馬丁·喬治·斯蒂爾 | 申請(專利權)人: | 英國電信公司 |
| 主分類號: | G06F15/38 | 分類號: | G06F15/38 |
| 代理公司: | 中國專利代理有限公司 | 代理人: | 許新根,曹濟洪 |
| 地址: | 英國英*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 翻譯 系統 | ||
本發明涉及一種將詞組從第一種語言翻譯成第二種語言的系統,特別是(但不是單獨地)涉及一種根據第一種語言的講話產生第二種語言的話音的系統。
對快速自動語言翻譯機特別是口譯機的研究已有多年的歷史了。但盡管近年來電子計算、言語識別和言語合成等技術取得了巨大進展,這類機器仍然只是夢幻和小說的資料。
迄今,對自動翻譯正文(text)的計算機系統是進行過大量的研究工作的。但除了在為數不多極其有限的應用領域(例如天氣預報的翻譯)外,都未能取得能自動精確地翻譯因而可以取代翻譯員的這樣的成果。言語識別的誤差、再加上語調、重音等方面的信息和言語本身的不準確,使言語的翻譯問題變得復雜化了。
現有正文語言翻譯程序包又偏偏都是不完全的,不是在這方面欠缺,就是在那方面不足,不能滿足言語至言語的翻譯系統的要求。迄今,這類程序包多數是作為職業翻譯員的輔助工具而設計的,所產生的輸出必須經過其后編輯處理才能以它們的目標語言表示出來。多數程序包不是按項目單加以驅動和進行人-機對話,就是以緩慢的成批處理方式工作,兩者都不適于“實時”言語操作。此外,翻譯程序包也往往不可靠,原因在于,習慣語和其它例外情況最容易得出錯誤的輸出:使用者得不到輸出能正確予以翻譯的保證。再者,現有系統中用的中央處理機非常密集,這使它們的運行費用非常貴,因而不適用于許多對費用極其敏感的用途。
本發明試圖提供一種上述不足和缺點有所減少的翻譯系統。
根據本發明提供了一種將詞組從第一種語言翻譯成第二種語言的系統,該系統包括:一存儲一批第二種語言詞組的存儲器;一接收第一種語言詞組的輸入裝置;一以第二種語言輸出包括所述一批詞組中的一詞組的詞組的輸出裝置;一確定所述一批詞組中哪一個詞組對應于所述輸入詞組的鑒定裝置;一響應所述鑒定裝置來控制輸出裝置并確保從所述一批詞組中輸出對應于所述輸入詞組的裝置。
這種系統翻譯速度非常快,所需要的時間主要花在識別/鑒定輸入詞組和查找第二種語言中的“答案”。
該系統還可設計得可以給使用者提供輸入確認信號,表明系統已正確識別/理解使用者的意思,這在言語翻譯系統中當然是特別重要的。
由于所存儲的一批詞組是僅僅由預先做好的準確翻譯組成的,因此一旦使用者獲得他的信息已被正確鑒定的確認信號時,翻譯的準確性即得到了保證。
這種翻譯系統還可能同時將一種語言迅速地翻譯成若干種第二種語言,所需要增加的部件基本上只是另外一些存儲另外每種第二種語言的各批詞組的存儲器。
現在參照附圖介紹本發明的一些實施例。附圖中,圖1是顯示根據本發明的系統各主要組件的方框圖。
本發明是以我們的下列見解為基礎的,即用數目小得多的關鍵詞有可能鑒定和抓住大量截然不同的詞組的語義內容。通過適當地選擇關鍵詞,就有可能使用現行市面上出售的只能識別數目遠比大量有用的詞組組中所包含的詞少得多的詞的言語識別器,來鑒定和區別大量的詞組組。
因此翻譯系統的性能總的說來有賴于那些關鍵詞正確辨別詞組的能力。識別詞組的能力越大,系統在識別上的容許誤差就越大,同時說話者本人所造成的容許誤差也大。
關鍵詞的選擇
合適的檢索程序如下:
1.根據各詞在詞組中出現的頻率整理N個有關詞組中K個詞中的每一個詞。
2.選擇M個最頻繁出現的詞列入基本關鍵詞表中,其中M為言語識別器詞匯中的詞數。
3.然后確定各詞是否存在于各詞組中。清點計數不為關鍵詞所鑒別的詞組的數目(E)。
4.令i=1。
5.臨時從列表中刪除一關鍵詞,計算E的新值(E′)。
6.把記分E′-E指定給被暫時刪除的關鍵詞。這是在關鍵詞更新之后對系統性能變壞的程度的一個衡量,也就是它對系統總性能的影響程度的一個衡量。〔實際上,這種衡量是用以確保各關鍵詞盡可能多地識別詞組對而不致僅僅重復其它詞組對的功能〕。
7.將暫時刪除了的關鍵詞復位,對M個關鍵詞的每一個關鍵詞重復上述過程。
8.從現有關鍵詞表中除去記分最低的詞。
9.用第M+i個最頻繁出現的關鍵詞代替該除去的詞,然后計算新的E值。
10.若新E值所表示的性能比原E值的好,就增加i值,同時除非M+i>K,過程停止,否則從第5步起重復過程。要不然,將第M+i個詞放棄不用,增加i值,同時除非M+i>K,在此情況下,在第8步最后一個被除去的詞復位,過程停止,否則過程就從第9步起重復進行。
最后得出的關鍵詞表包含識別詞組用的由M個關鍵單詞組成的最佳關鍵詞組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英國電信公司,未經英國電信公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/87106964/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶高性能非嚙合回轉體的間歇式內混合機
- 下一篇:層壓體及其制品





