[發明專利]一種通過鏈接快速識別網頁類型的方法及系統有效
| 申請號: | 201010590389.1 | 申請日: | 2010-12-15 |
| 公開(公告)號: | CN102567337B | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 陳運文 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京辰權知識產權代理有限公司11619 | 代理人: | 佟林松 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 鏈接 快速 識別 網頁 類型 方法 系統 | ||
1.一種通過鏈接快速識別網頁類型的方法,其特征在于,包括以下步驟:
1)構建鏈接歸一詞典,將所需網頁類型和對應的鏈接歸一規則及歸一字符串保存到該鏈接歸一詞典中;
2)從網絡蜘蛛已經抓取的網頁中提取出所有鏈接;
3)到鏈接歸一詞典中讀取歸一字符串,從中提取出前綴字符串;
4)判斷步驟2)的鏈接中是否包含有步驟3)的前綴字符串,若有,則到鏈接歸一詞典中找出該前綴字符串對應的歸一字符串、歸一規則和網頁類型,轉到步驟5);若沒有,則轉到步驟3),處理下一條鏈接;
5)根據步驟4)的歸一規則,生成該鏈接的歸一字符串,并與步驟4)的歸一字符串進行比對,若相同,則將步驟4)的網頁類型賦給該鏈接,并將該鏈接傳給網絡蜘蛛;若不同,則放棄該鏈接;
6)重復步驟2)至5),直至網絡蜘蛛完成全部抓取工作;
所述步驟1)中,歸一字符串的生成方法,包括以下步驟:
分析所需網頁類型的鏈接命名規律;
將鏈接中代表站點部分的字符串去掉,剩下的字符串按照指定分隔符分段切分成字符子串;所述分隔符為字符.,=?&/-_#中的任意一種;
對鏈接中發生變化部分的字符子串進行歸一,并保存歸一字符串;所述歸一的方法,包括以下步驟:將字符劃分為數字、字母和其他字符三種,分別用不同的歸一字符表示;連續多個相同的歸一字符合并;所述歸一規則至少包含有一個子規則,每個子規則對應一個字符子串,并記錄有該字符子串的歸一類型;所述歸一類型分為三種:數字串的歸一、字母串的歸一和其他字符串的歸一,分別用不同的字符表示;
所述步驟2)中,提取鏈接的方法是:在頁面內尋找以字符串<a href=″開始,以字符串″>結束的部分,從中提取出鏈接;
所述步驟3)中,提取前綴字符串的方法,包括以下步驟:在歸一字符串中,從左至右,檢測字符@、#或&出現的位置,以這三類字符首次出現的位置為尾部,截斷該歸一字符串,保存在前綴字符串中。
2.一種通過鏈接快速識別網頁類型的系統,用于實現權利要求1所述的方法,其特征在于,包括有:
鏈接歸一詞典,用于保存所需網頁類型及其對應的鏈接歸一規則和歸一字符串;
鏈接提取模塊,用于從網絡蜘蛛已經抓取的網頁中提取出鏈接;
前綴提取模塊,用于從鏈接歸一詞典中讀取歸一字符串,并從該歸一字符串中提取出前綴字符串;
類型預判模塊,用于根據該前綴字符串初步判斷該鏈接的類型,并在判斷結果為有效頁面時,將鏈接歸一詞典中該前綴字符串對應的歸一字符串、歸一規則和網頁類型,傳給類型判別模塊;
類型判別模塊,用于根據類型預判模塊傳入的歸一規則,生成該鏈接的歸一字符串,和類型預判模塊傳入的歸一字符串比對,判斷出該鏈接的類型,并將判斷結果為有效的鏈接傳給網絡蜘蛛。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010590389.1/1.html,轉載請聲明來源鉆瓜專利網。





