[發明專利]一種從互聯網上自動提取雙語翻譯詞典的方法有效
申請號: | 201010147364.4 | 申請日: | 2010-04-13 |
公開(公告)號: | CN101833571A | 公開(公告)日: | 2010-09-15 |
發明(設計)人: | 周立柱;韓軍;劉娟;張崇;茹立云;佟子健 | 申請(專利權)人: | 清華大學;北京搜狗科技發展有限公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;胡小永 |
地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 互聯網 自動 提取 雙語 翻譯 詞典 方法 | ||
技術領域
本發明涉及統計自然語言處理技術領域,特別涉及一種從互聯網上自動提取雙語翻譯詞典的方法。
背景技術
無論是科研還是平時生活,人們對外語的接觸和依賴程度都很高。傳統的翻譯詞典主要來自人工的整理編輯,生成周期長,而且更新慢,覆蓋度不高。現有的基于互聯網生成翻譯詞典的方法需要依靠多種自然語言處理技術和機器學習技術,這些方法在處理很大規模數據時可能成為性能的瓶頸,同時要依賴事先建立的資源。
我們構造的雙語翻譯詞典來自互聯網,除了傳統詞匯外還可以很好的覆蓋當前流行詞匯以及命名實體,給人們的實際應用以及機器翻譯等其他領域的科研帶來極大的便利。以下是雙語詞典相關的名詞解析:
1.雙語詞匯
在中英文雙語網頁中,存在大量的具有翻譯關系或者其他關聯的中英雙語出現在一起。這些相互對應的中英雙語構成雙語對,我們稱之為雙語詞匯。隨著互聯網的快速發展,這些雙語詞匯已經具有龐大的數量,經過提取便能很好的服務平時的生活和科研應用。
2.詞頻
同一個雙語詞匯在不同的網頁中可能重復出現,雙語詞匯在抓取的所有網頁中出現的次數稱為詞頻。
3.括號雙語詞匯
在許多雙語網頁中,人們常常習慣在一個詞或短語之后的括號內跟上該詞或短語的翻譯,具有這種對應關系雙語詞匯我們稱為括號雙語詞匯。括號雙語詞匯出現在各種類型的雙語網頁中,包括購物、官方主頁、新聞等,覆蓋了人們生活的各個方面。但括號雙語詞匯還包括很多非翻譯的關系,例如補充說明、論壇id等,整體上覆蓋率很高,但正確率偏低。
4.英中雙語詞匯
括號內為英文、括號前為中文的括號雙語詞匯。
5.中英雙語詞匯
括號內為中文、括號前為英文的括號雙語詞匯。
6.中文語料庫
所有雙語詞匯中括號內的中文組成中文語料庫。
7.前綴
在英中雙語詞匯中,從左括號開始依次從右往左遍歷中文,將得到的字串逐個在中文語料庫中查找,可以查找到的字串成為該英中雙語詞匯的一個前綴
8.良結構雙語詞匯
在一些專業網站或者外語學習網站,會有經過用戶整理的某一類詞語以及對應的翻譯,這些詞語和翻譯往往以很規整的結構出現,我們稱為良結構詞匯。這部分雙語詞匯都是經過人工整理的,正確率高,同時這些雙語詞匯出現的結構規整,便于提取。但由于這部分雙語詞匯是經過整理以后的,覆蓋率相對括號雙語詞匯偏低。
9.流行用語
流行用語是指互聯網中出現的很多傳統詞典無法覆蓋的英語詞匯,例如orz(失意體前屈),ft(暈倒)、pmp(拍馬屁)等,這些或者是單詞的縮寫,或者是拼音的縮寫,或者是象形文字等等。
10.命名實體
命名實體主要指一些用來描述地名、公司名、品牌名或者新的技術等的特定詞匯,由于公司名、品牌名以及技術都在不斷地更新,新的詞匯也在不停地出現,所以很多命名實體詞匯為傳統詞典所無法覆蓋,例如Baleno(班尼路)、cloud?computing(云計算)、kobe(科比)等。
11.詞根
詞根指英文單詞意義的主要部分,通過英文單詞中去掉由于語態和復數形式添加的后綴獲得。例如witten的詞根為wit,managing的詞根為manag。
發明內容
(一)要解決的技術問題
本發明要解決的技術問題是在從互聯網構建雙語詞典時如何快速有效地自動構建且不依賴任何外來資源的問題。
(二)技術方案
一種從互聯網上自動提取雙語翻譯詞典的方法,包括以下步驟:
S1:從中外雙語網頁中提取括號雙語詞匯和良結構雙語詞匯,并記錄詞頻;所述雙語詞匯為具有翻譯關系的中外雙語出現在一起組成的詞匯,所述良結構雙語詞匯為先前經過人工整理的具有準確翻譯的雙語詞匯,所述括號雙語詞匯為詞或短語之后的括號內跟上該詞或短語的翻譯的雙語詞匯,包括:
外中雙語詞匯,括號內為外語、括號前為中文的括號雙語詞匯。
中外雙語詞匯,括號內為中文、括號前為外語的括號雙語詞匯。
S2:對所述提取的括號雙語詞匯進行截取,得到翻譯準確的括號雙語詞匯;
S3:對良結構雙語詞匯和經過步驟S2后的括號雙語詞匯進行詞根合并和篩選;
S4:對給定的中文或外語,首先在良結構雙語詞匯中查找對應的翻譯,如果找到則忽略括號雙語詞匯的翻譯;否則在括號雙語詞匯中尋找對應的翻譯,所有中文、外語和對應的翻譯構成雙語翻譯詞典。
其中,所述步驟S1包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;北京搜狗科技發展有限公司,未經清華大學;北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010147364.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于粗糙集的地名信息檢索方法
- 下一篇:基于應用程序的文件緩存方法和裝置