[發明專利]一種跨語言的主題網站自動發現方法有效
| 申請號: | 201710017871.8 | 申請日: | 2017-01-11 |
| 公開(公告)號: | CN106649883B | 公開(公告)日: | 2019-12-17 |
| 發明(設計)人: | 程國艮;宋俊平 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F17/28 |
| 代理公司: | 11520 北京萬貝專利代理事務所(特殊普通合伙) | 代理人: | 馬紅 |
| 地址: | 100040 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 主題 網站 自動 發現 方法 | ||
1.一種跨語言的主題網站自動發現方法,其特征在于,所述跨語言的主題網站自動發現方法根據種子網站或關鍵詞集生成多語言主題模型,依據主題模型中的關鍵字進行網頁信息采集,通過對相關網頁進行聚類分析找出備選主題網站,將主題網站翻譯后提供給用戶,并根據用戶反饋改進系統性能;
具體包括:
時序主題模型提取:將過去一段時間劃分為幾個時間段,分別計算每個時間段內網站的關鍵詞,所有時間段的關鍵詞組成網站的主題模型;在對比網站相似度時,分別對比各時間段內網站的相似度,然后根據各時間段的權重計算網站整體相似度,整體相似度大于給定閾值的即認定為主題相關網站;主題模型的定義如下:M=(K,A,L,N,P),其中M為主題模型,K為各時間段關鍵詞向量,K=[K1,K2,......KN],其中Ki為第i個時間段的關鍵詞向量Ki=[ki1,ki2,......kili];A為各時間段關鍵詞向量相似度的權重,A=[a1,a2,......aN];L為每個時間段關鍵詞的個數,L=[l1,l2,......lN];N為時間段的個數;P為每個時間段的長度,P=[p1,p2,......,pN];其中A、L和P的值由用戶結合實際情況進行設置;A的值越接近當前時間的時間段的權重越高;
網頁信息采集:網頁信息采集模塊根據關鍵字檢索相關網頁并下載;
網站信息抽取:利用網站信息抽取模塊從相關網頁中聚合出備選主題網站;提取備選主題網站的主題模型并與種子網站主題模型進行對比,將相似度大于某一閾值的放入新發現主題網站列表;
網頁翻譯:利用已有機器翻譯引擎將新發現主題網站列表中的外語網頁翻譯為本國語言;
展示及反饋:將翻譯后的新發現主題網站中的內容展示給用戶;由用戶對新發現主題網站進行反饋,即評價是否真的主題網站,根據反饋結果對系統進行優化。
2.如權利要求1所述的跨語言的主題網站自動發現方法,其特征在于,時序主題模型提取方法包括:
1)利用網頁信息采集模塊爬取種子網站歷史網頁;
2)根據P設置N個子數據集,根據網頁的發布時間將網頁分別放入對應的子數據集,若某網頁的發布時間t滿足pi-1<t-t0≤pi,t0為當前時間,則將該網頁放入第i個子數據集;
3)分別計算每個子數據集的關鍵詞,第i個子數據集選取前li個關鍵詞構成主題模型;
4)根據關鍵詞和各參數值生成網站主題模型M;M=(K,A,L,N,P),其中M為主題模型,K為各時間段關鍵詞向量,K=[K1,K2,......KN],其中Ki為第i個時間段的關鍵詞向量A為各時間段關鍵詞向量相似度的權重,A=[a1,a2,......aN];L為每個時間段關鍵詞的個數,L=[l1,l2,......lN];N為時間段的個數;P為每個時間段的長度,P=[p1,p2,......,pN]。
3.如權利要求2所述的跨語言的主題網站自動發現方法,其特征在于,如果沒有種子站點,由用戶直接指定各時間段的關鍵詞生成主題模型;
當進行跨語言的主題網站自動發現時,外語網站主題模型生成方法包括兩種根據實際情況進行選擇的方法;
方法一為:對本語言主題模型的關鍵字進行翻譯,直接生成外語主題模型;
方法二為:提供外語種子網站,自動提取主題模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710017871.8/1.html,轉載請聲明來源鉆瓜專利網。





