[發明專利]網頁類別知識庫的建立系統及方法有效
| 申請號: | 201210376381.4 | 申請日: | 2012-09-29 |
| 公開(公告)號: | CN102890717A | 公開(公告)日: | 2013-01-23 |
| 發明(設計)人: | 盧宏林 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 類別 知識庫 建立 系統 方法 | ||
1.一種網頁類別知識庫的建立系統,包括:
樣本頁面框架ID計算模塊,適于抽取樣本網頁的頁面框架,計算樣本網頁的頁面框架ID;
模式累計模塊,適于累計相同ID的頁面框架數量達到閾值時,計算樣本網頁的頁面框架模式;
知識庫建立模塊,適于建立樣本網頁的類別和所述頁面框架模式的映射關系以生成網頁類別知識庫。
2.如權利要求1所述的網頁類別知識庫的建立方法,其特征在于,所述知識庫建立模塊進一步包括:
權重設定模塊,適于按照不同樣本網頁的類別,為該類別的頁面框架模式中的各個網頁特征賦予預先設定權重;
映射表建立模塊,適于建立樣本網頁的類別與該類別的各個網頁特征及權重的關系映射表,以生成網頁類別知識庫。
3.如權利要求1或2所述的網頁類別知識庫的建立系統,其特征在于,頁面框架ID計算模塊進一步包括:頁面框架抽取模塊,適于根據樣本網頁源代碼中的html語言標簽抽取所述樣本網頁的頁面框架。
4.如權利要求1~3中任一項所述的網頁類別知識庫的建立系統,其特征在于,頁面框架ID計算模塊進一步包括:頁面框架抽取模塊,適于按標點識別出樣本網頁的正文,去除正文以得到所述樣本網頁的頁面框架。
5.如權利要求1~4中任一項所述的網頁類別知識庫的建立系統,其特征在于,所述模式累計模塊進一步包括:
待定列表頁識別模塊,適于判斷是否有位于頁面內固定位置塊內且穩定存在一定時間的鏈接,若有,則設定所述樣本網頁為待定列表頁;
列表頁框架模式確定模塊,適于每隔一段時間內調度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述樣本網頁的頁面框架模式設為列表頁框架模式。
6.一種網頁類別知識庫的建立方法,包括以下步驟:
抽取樣本網頁的頁面框架,計算樣本網頁的頁面框架ID;
累計相同ID的頁面框架數量達到閾值時,計算樣本網頁的頁面框架模式;
建立樣本網頁的類別和所述頁面框架模式的映射關系,以生成網頁類別知識庫。
7.如權利要求6所述的網頁類別知識庫的建立方法,其特征在于,所述建立樣本網頁的類別和所述頁面框架模式的映射關系以生成網頁類別知識庫具體包括:
按照不同樣本網頁的類別,為該類別的頁面框架模式中的各個網頁特征賦予預先設定權重;
建立樣本網頁的類別與該類別的各個網頁特征及權重的關系映射表,以生成網頁類別知識庫。
8.如權利要求6或7所述的網頁類別知識庫的建立方法,其特征在于,抽取所述樣本網頁的頁面框架的方式為:根據樣本網頁源代碼中的html語言標簽抽取所述樣本網頁的頁面框架。
9.如權利要求6~8中任一項所述的網頁類別知識庫的建立方法,其特征在于,抽取所述樣本網頁的頁面框架的方式為:按標點識別出樣本網頁的正文,去除正文以得到所述樣本網頁的頁面框架。
10.如權利要求6~9中任一項所述的網頁類別知識庫的建立方法,其特征在于,列表頁框架模式計算的方式為:
判斷是否有位于頁面內固定位置塊內且穩定存在一定時間的鏈接,若有,則設定所述樣本網頁為待定列表頁;
每隔一段時間內調度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述樣本網頁的頁面框架模式設為列表頁框架模式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210376381.4/1.html,轉載請聲明來源鉆瓜專利網。





