[發明專利]一種識別網頁類型的系統和方法有效
| 申請號: | 201310391961.5 | 申請日: | 2013-09-02 |
| 公開(公告)號: | CN103544210B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 李海燕;王海洋;劉大偉;劉瑋;余智華;隋雪青 | 申請(專利權)人: | 煙臺中科網絡技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 楊立 |
| 地址: | 264003 山東省煙臺*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 網頁 類型 系統 方法 | ||
1.一種識別網頁類型的方法,包括以下步驟:?
(1)對特定的一種或多種網頁類型預先定義啟發式規則并生成啟發式規則列表,所述任一啟發式規則對應唯一的網頁類型;?
(2)選取訓練網頁,從訓練網頁中提取預先定義的預定特征并形成標準化的特征向量,對所述標準化的特征向量進行兩次優化形成精簡的特征集合,并基于所述精簡的特征集合構建分類器和特征抽取器,所述分類器通過所述精簡的特征集合生成用于確定待識別網頁網頁類型的分類模型;所述特征抽取器根據所述精簡的特征集合設定了對待識別網頁抽取的設定特征;?
(3)基于待識別網頁的統一資源定位符(URL)和源代碼,在所述啟發式規則列表中執行規則匹配,若所述識別網頁的URL和源代碼符合所述啟發式規則定義的條件,則規則匹配成功,進入步驟(4);否則,進入步驟(5);?
(4)根據匹配的規則輸出待識別網頁的網頁類型;?
(5)將待識別網頁的URL和源代碼輸入到所述特征抽取器中,所述特征抽取器抽取待識別網頁的設定特征,所述分類器根據抽取到的所述設定特征和所述分類模型,對待識別網頁執行網頁類型分類,輸出待識別網頁的網頁類型。?
2.根據權利要求1所述的方法,其特征在于:所述預定特征包括從網頁的URL字符串中提取的URL特征和/或從網頁源代碼對應的文件對象模型(dom)樹的節點中提取的網頁特征,所述網頁包括訓練網頁和待識別網頁。?
3.根據權利要求2所述的方法,其特征在于:若所述URL以“/”結尾,則所述URL字符串為URL中的介于開頭“http://”和末尾“/”之間的字符串;若所述URL不以“/”結尾,則所述URL字符串為URL中開頭“http://”以后的所有字符串。?
4.根據權利要求3所述的方法,其特征在于:所述URL特征包括下述中的任意一個或多個:?
URL深度值,所述URL深度值為URL字符串中“/”的數量值加上1;?
URL句點數量值,所述URL句點數量值為URL第一個“/”之前的字符串中“.”的數量值;?
URL日期特征值,所述日期特征值用于表示URL字符串中是否有符合日期正則表達式的日期字符串,若存在所述日期字符串且所述日期字符串表示的日期合法,則所述日期特征值設為“1”;否則,所述日期特征值設為“0”;?
URL類型特征詞的頻數,所述URL類型特征詞為預先定義的用于表示網頁類型的特征詞;和/或?
URL類型特征詞的得分數值,所述URL類型特征詞的得分函數為:?
其中,i為第i個url類型特征詞,D為url的總深度,j為第j層深度,?
。
5.根據權利要求4所述的方法,其特征在于:所述URL類型特征詞為用于確定網頁類型的類型特征詞。?
6.根據權利要求2所述的方法,其特征在于:所述網頁特征包括文本高頻詞特征、結構特征、標簽特征、鏈接特征和/或語法特征,所述語法特征包括標點符號特征和句子特征;?
所述文本高頻詞特征為網頁源代碼對應的文件對象模型(dom)樹的文本節點中與網頁類型相關的高頻特征詞出現的頻數,所述高頻特征詞為用于?確定網頁類型的各個文本高頻特征詞;?
所述結構特征為“head”子樹中“title”和“meta”兩種標簽節點的content屬性所包含的結構類型特征詞的個數以及標志字體大小的“h1”、“h2”、“h3”三個標簽在整個dom樹中出現的頻數,所述結構類型特征詞為用于確定網頁類型的各個結構類型特征詞;?
所述標簽特征為預設的50個常用的標簽占所述網頁總標簽的百分比;?
所述鏈接特征為url鏈接的屬性值中包含每類url類型特征詞的url的個數或百分比,所述屬性值包括“a”、“link”標簽的href屬性的屬性值和/或“img”標簽的src屬性的屬性值;?
所述標點符號特征為dom樹的文本節點中,中英文標點符號出現的頻數;?
所述句子特征包括dom樹的文本節點中每個中英文句子標點符號出現的頻數、每種句子標點符號出現的頻率、所有句子的總數量和/或每個句子平均字節數量。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于煙臺中科網絡技術研究所,未經煙臺中科網絡技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310391961.5/1.html,轉載請聲明來源鉆瓜專利網。





