[發明專利]一種網頁主題提取系統和方法無效
| 申請號: | 200610036003.6 | 申請日: | 2006-06-15 |
| 公開(公告)號: | CN101079031A | 公開(公告)日: | 2007-11-28 |
| 發明(設計)人: | 丁江偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 | 代理人: | 郭偉剛;蔡曉紅 |
| 地址: | 518057廣東省深圳市高新科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 主題 提取 系統 方法 | ||
1、一種網頁主題提取系統,包括文檔解析器,其用于從網頁源文件中提取網頁標題和具有不同突出顯示屬性的網頁正文;其特征在于,還包括:
分詞模塊,其用于將所述網頁正文、網頁標題和網頁類別信息進行分詞,得到第一詞匯表;
義元處理模塊,其用于將所述第一詞匯表中的詞匯轉換為義元,對所述義元計算權重,最后再對計算權重后的義元進行反向還原,得到主題詞匯集合。
2、根據權利要求1所述的一種網頁主題提取系統,其特征在于:所述分詞模塊與義元處理模塊之間還串聯有分詞后處理模塊;
所述分詞模塊還具有對切分后的詞匯進行詞性標注的功能;所述分詞后處理模塊用于根據第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對所述第二詞匯表中的詞匯進行處理。
3、根據權利要求1或2所述的一種網頁主題提取系統,其特征在于,所述義元處理模塊包括:
義元擴展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉換成義元,組成第一義元表;
網頁主題義元計算模塊,其用于對所述第一義元表中的所有義元計算權重;
義元復原關鍵詞模塊,其用于對計算權重后的義元進行反向還原,得到主題詞匯集合。
4、根據權利要求1或2所述的一種網頁主題提取系統,其特征在于:還包括網頁主題輸出接口,其用于將所述主題詞匯集合處理為適合應用層調用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權重。
5、一種網頁主題提取方法,其特征在于,包括以下步驟:
(a),所述文檔解析器從網頁源文件中提取網頁標題和具有不同突出顯示屬性的網頁正文;
(b),所述分詞模塊將所述網頁正文、網頁標題和網頁類別信息進行分詞,得到第一詞匯表;
(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉換為義元,對所述義元計算權重,最后再對計算權重后的義元進行反向還原,得到表征了網頁主題的、具有不同權重的主題詞匯集合。
6、根據權利要求5所述的一種網頁主題提取方法,其特征在于,步驟(a)中,提取網頁標題和網頁正文的方法是:
所述文檔解析器對所述網頁的源文件進行解析,得到網頁的語法樹,然后從語法樹上獲得網頁標題、網頁正文中具有不同突出顯示屬性的正文內容,并將所述正文內容按照其突出顯示屬性順序記為body1?body2?body3到bodyN。
7、根據權利要求5所述的一種網頁主題提取方法,其特征在于,進一步的:步驟(b)中,所述分詞模塊還對切分后的詞匯進行詞性標注,得到第一詞匯表。
8、根據權利要求7所述的一種網頁主題提取方法,其特征在于:步驟(b)之后進一步包括步驟(b1),所述分詞后處理模塊至少對所述第一詞匯表中的詞匯進行去停用詞、去虛詞,得到第二詞匯表。
9、根據權利要求8所述的一種網頁主題提取方法,其特征在于,具體的,步驟(c)包括步驟:
(c1),所述義元擴展模塊按照詞典與義元詞典的對應關系將所述W1中的詞匯轉換成義元,組成第一義元表;
(c2),所述網頁主題義元計算模塊對所述第一義元表中的所有義元計算權重,得到具有不同權重的第二義元表;
(c3),所述義元復原關鍵詞模塊按照義元詞典對所述第二義元表中的義元進行反向還原,得到表征了網頁主題的、具有不同權重的主題詞匯集合。
10、根據權利要求5所述的一種網頁主題提取方法,其特征在于:步驟(c)之后進一步包括步驟(d),所述網頁主題輸出接口將所述主題詞匯集合處理為適合應用層調用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610036003.6/1.html,轉載請聲明來源鉆瓜專利網。





