[發(fā)明專利]一種網(wǎng)絡可比語料的挖掘方法有效
| 申請?zhí)枺?/td> | 201310382010.1 | 申請日: | 2013-08-28 |
| 公開(公告)號: | CN103473280B | 公開(公告)日: | 2017-02-08 |
| 發(fā)明(設計)人: | 李淼;朱澤德;張健;曾新華;陳雷;曾偉輝;鄭守國;高會議;胡澤林;楊振新;陳晟;李華龍;董瀚琳;吳娜;卞程飛;翁士狀 | 申請(專利權(quán))人: | 中國科學院合肥物質(zhì)科學研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 合肥天明專利事務所34115 | 代理人: | 奚華保 |
| 地址: | 230031 *** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網(wǎng)絡 可比 語料 挖掘 方法 | ||
1.一種網(wǎng)絡可比語料的挖掘方法,該方法包括下列順序的步驟:
(1)利用網(wǎng)絡爬蟲獲取源語言網(wǎng)頁,經(jīng)預處理后形成源語言文檔;
(2)根據(jù)已有的雙語語料庫構(gòu)建跨語言主題模型,分析源語言文檔的跨語言主題的概率,利用源語言文檔主題信息產(chǎn)生對應的目標語言查詢詞;
(3)將目標語言查詢詞提交搜索引擎,獲取網(wǎng)絡中的目標語言文檔,選取前N的文檔構(gòu)成目標語言候選相似文檔集;
(4)分析目標語言候選相似文檔的跨語言主題概率分布,根據(jù)主題概率分布的KL散度計算源語言文檔和目標語言候選相似文檔的相似度,篩選出相似度較高的源語言文檔和目標語言候選相似文檔構(gòu)建可比語料庫。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡可比語料的挖掘方法,其特征在于:在所述步驟(1)中,利用網(wǎng)絡爬蟲抓取源語言原始網(wǎng)頁并存儲至本地數(shù)據(jù)庫中,對收集的網(wǎng)頁進行除去導航條、相關鏈接的去噪聲處理,對網(wǎng)頁的正文內(nèi)容進行分詞、詞性標注、命名實體識別、詞性選擇的預處理。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡可比語料的挖掘方法,其特征在于:所述步驟(2)包括以下順序的步驟:
(a)在已有的雙語語料庫的基礎上,利用跨語言隱含狄利克雷分配的方法獲取多個跨語言主題模型;
(b)跨語言主題模型對源語言文檔進行語義分析,獲取每一跨語言主題的概率;
(c)根據(jù)源語言文檔的跨語言主題分布和每個主題中目標語言詞匯的概率分布,獲取目標語言候選查詢詞;
(d)根據(jù)目標語言單語語料庫中詞匯的統(tǒng)計信息,合并目標語言候選查詢詞形成目標語言查詢詞。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡可比語料的挖掘方法,其特征在于:在所述步驟(3)中,N為10。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡可比語料的挖掘方法,其特征在于:在所述步驟(4)中,源語言文檔和目標語言候選相似文檔的跨語言主題概率分布的KL散度作為衡量源語言文檔和目標語言候選相似文檔的相似度,相似度計算公式如下:
其中,為源語言文檔和目標語言候選相似文檔的主題概率分布的KL散度,
選取相似度最大且超過一定閾值β的可比語料加入可比語料庫,否則舍棄源語言文檔和目標語言候選相似文檔。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院合肥物質(zhì)科學研究院,未經(jīng)中國科學院合肥物質(zhì)科學研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310382010.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





