[發明專利]網頁類型識別方法以及網頁類型識別裝置有效
| 申請號: | 201210299843.7 | 申請日: | 2012-08-22 |
| 公開(公告)號: | CN103631787B | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 蔡兵 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 類型 識別 方法 以及 裝置 | ||
本發明涉及網頁類型識別方法以及網頁類型識別裝置,其中網頁類型識別方法包括步驟:接收待測網頁的網頁地址,并對網頁地址進行解析以得到網頁地址的組成部分;判斷待測網頁地址的組成部分是否與網頁分類規則相匹配;以及若判斷結果為相匹配,則根據網頁分類規則將待測網頁分類以得到待測網頁的網頁類型,否則將待測網頁的網頁地址發送至網頁分類器中進行分類以得到待測網頁的網頁類型。本發明僅利用網頁地址的情況下即可預測出網頁類別,預測速度快、實時性高。
技術領域
本發明涉及類型識別技術領域,特別涉及網頁類型識別方法以及網頁類型識別裝置。
背景技術
隨著互聯網的高速發展,萬維網“WWW”網頁類型識別也成為一項必不可少的工作。目前網頁類型識別方法主要有兩種:第一種是基于人工規則和策略的方法。其主要利用專家領域知識對網頁進行整理分類。這種方法尤其適用于范圍已知的網頁類型識別,其優點是識別效果好、速度快。缺點是其可擴展性較差,當需要識別的網頁范圍非常大時,由于人力不足而難以處理海量數據。第二種是文本分類方法,例如樸素貝葉斯、SVM等,其優點是可以基于樣本統計,需要較少的人工干預,且能夠保證一定的準確率和網頁覆蓋度。缺點是計算量大,耗時較高,難以滿足一些對網頁識別實時性要求非常高的系統。由此可知,上述兩種方法在覆蓋度和計算量方面均存在一定的限制,無法滿足實時性要求極高的網頁類型識別系統。
發明內容
因此,本發明提供網頁類型識別方法以及網頁類型識別裝置,以克服現有網頁類型識別技術存在的問題。
具體地,本發明實施例提供的一種網頁類型識別方法,其包括步驟:接收待測網頁的網頁地址,并對網頁地址進行解析以得到網頁地址的組成部分;判斷待測網頁地址的組成部分是否與網頁分類規則相匹配;以及若判斷結果為相匹配,則根據網頁分類規則將待測網頁分類以得到待測網頁的網頁類型,否則將待測網頁的網頁地址發送至網頁分類器中進行分類以得到待測網頁的網頁類型。
另外,本發明實施例提供的一種網頁類型識別裝置,其包括:解析單元以及判斷單元。其中,解析單元,用于接收待測網頁的網頁地址,并對網頁地址進行解析以得到網頁地址的組成部分;判斷單元,用于判斷待測網頁地址的組成部分是否與網頁分類規則庫中的網頁分類規則相匹配,若判斷結果為相匹配,則根據網頁分類規則將待測網頁分類,否則將待測網頁的網頁地址發送至網頁分類器中進行分類以得到待測網頁的網頁類型。
由上述實施例可知,本發明通過判斷待測網頁地址的組成部分是否與網頁分類規則相匹配,若相匹配,則根據網頁分類規則將待測網頁分類以得到待測網頁的網頁類型,否則將待測網頁的網頁地址發送至網頁分類器中進行分類以得到待測網頁的網頁類型。從而達到僅基于網頁地址即可進行網頁類型預測,具有速度快、效率高、覆蓋廣的優點,可適用于實時性高的在線網頁類型預測系統。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其他目的、特征和優點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細說明如下。
附圖說明
圖1是本發明實施例提供的網頁類型識別方法的步驟流程圖;
圖2是本發明另一實施例提供的網頁類型識別方法的步驟流程圖;
圖3為本發明實施例提供的網頁類型識別裝置的主要架構框圖。
具體實施方式
為更進一步闡述本發明為達成預定發明目的所采取的技術手段及功效,以下結合附圖及較佳實施例,對依據本發明提出的網頁類型識別方法以及網頁類型識別裝置其具體實施方式、結構、特征及功效,詳細說明如后。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210299843.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:適用于紙尿褲的防反滲導流層
- 下一篇:設備基礎加固裝置





