[發(fā)明專利]一種網(wǎng)絡(luò)可比語料的挖掘方法有效
| 申請?zhí)枺?/td> | 201310382010.1 | 申請日: | 2013-08-28 |
| 公開(公告)號: | CN103473280B | 公開(公告)日: | 2017-02-08 |
| 發(fā)明(設(shè)計)人: | 李淼;朱澤德;張健;曾新華;陳雷;曾偉輝;鄭守國;高會議;胡澤林;楊振新;陳晟;李華龍;董瀚琳;吳娜;卞程飛;翁士狀 | 申請(專利權(quán))人: | 中國科學院合肥物質(zhì)科學研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 合肥天明專利事務(wù)所34115 | 代理人: | 奚華保 |
| 地址: | 230031 *** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 可比 語料 挖掘 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及統(tǒng)計機器翻譯和跨語言信息檢索技術(shù)領(lǐng)域,尤其是一種網(wǎng)絡(luò)可比語料的挖掘方法及裝置。
背景技術(shù)
可比語料庫是由語言不同、內(nèi)容相似但非互譯的文檔構(gòu)成的集合,從中挖掘雙語術(shù)語、命名實體、平行句對等細粒度的翻譯等價促進了詞典編纂、跨語言信息檢索和統(tǒng)計機器翻譯等領(lǐng)域的發(fā)展。相對于平行語料,可比語料內(nèi)容的相似性降低了平行語料中源語言和目標語言文檔互譯的要求,使可比語料具有語言真實、來源廣闊、領(lǐng)域全面、內(nèi)容新穎和易于獲取的優(yōu)勢。
現(xiàn)有的可比較語料構(gòu)建主要通過特征信息、跨語言檢索和維基百科等方法來實現(xiàn)。在特征信息方面,采用新聞發(fā)布日期、語言無關(guān)單元、雙語字典和詞頻分布等特征計算文檔對的相似性;在跨語言檢索方面,將某一語言文檔中特定頻率詞匯或關(guān)鍵詞翻譯成另一語言作為查詢詞檢索文檔,構(gòu)成可比語料庫;在維基百科方面,以維基百科類別信息作為主題約束,以語言鏈接進行雙語映射采集相應(yīng)源語言和目標語言的百科頁面。然而,上述三種方法面臨的問題有:詞匯翻譯中的歧義、雙語知識的覆蓋度不足或可比語料局限于特定數(shù)據(jù)來源。
發(fā)明內(nèi)容
本發(fā)明的首要目的在于提供一種避免詞匯翻譯歧義的產(chǎn)生,降低對雙語知識的依賴,提高語料庫建設(shè)的準確度的網(wǎng)絡(luò)可比語料的挖掘方法。
為實現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:一種網(wǎng)絡(luò)可比語料的挖掘方法,該方法包括下列順序的步驟:
(1)利用網(wǎng)絡(luò)爬蟲獲取源語言網(wǎng)頁,經(jīng)預處理后形成源語言文檔;
(2)根據(jù)已有的雙語語料庫構(gòu)建跨語言主題模型,分析源語言文檔的跨語言主題的概率,利用源語言文檔主題信息產(chǎn)生對應(yīng)的目標語言查詢詞;
(3)將目標語言查詢詞提交搜索引擎,獲取網(wǎng)絡(luò)中的目標語言文檔,選取前N的文檔構(gòu)成目標語言候選相似文檔集;
(4)分析目標語言候選相似文檔的跨語言主題概率分布,根據(jù)主題概率分布的KL散度計算源語言文檔和目標語言候選相似文檔的相似度,篩選出相似度較高的源語言文檔和目標語言候選相似文檔構(gòu)建可比語料庫。
在所述步驟(1)中,利用網(wǎng)絡(luò)爬蟲抓取源語言原始網(wǎng)頁并存儲至本地數(shù)據(jù)庫中,對收集的網(wǎng)頁進行除去導航條、相關(guān)鏈接的去噪聲處理,對網(wǎng)頁的正文內(nèi)容進行分詞、詞性標注、命名實體識別、詞性選擇的預處理。
所述步驟(2)包括以下順序的步驟:
(a)在已有的雙語語料庫的基礎(chǔ)上,利用跨語言隱含狄利克雷分配的方法獲取多個跨語言主題模型;
(b)跨語言主題模型對源語言文檔進行語義分析,獲取每一跨語言主題的概率;
(c)根據(jù)源語言文檔的跨語言主題分布和每個主題中目標語言詞匯的概率分布,獲取目標語言候選查詢詞;
(d)根據(jù)目標語言單語語料庫中詞匯的統(tǒng)計信息,合并目標語言候選查詢詞形成目標語言查詢詞。
在所述步驟(3)中,N為10。
在所述步驟(4)中,源語言文檔和目標語言候選相似文檔的跨語言主題概率分布的KL散度作為衡量源語言文檔和目標語言候選相似文檔的相似度,相似度計算公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院合肥物質(zhì)科學研究院,未經(jīng)中國科學院合肥物質(zhì)科學研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310382010.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復網(wǎng)絡(luò)地址自動恢復的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





