[發明專利]Web網站產品詳細信息的分類抓取及產品信息庫建立方法有效
| 申請號: | 201410190477.0 | 申請日: | 2014-05-07 |
| 公開(公告)號: | CN103927400B | 公開(公告)日: | 2017-04-19 |
| 發明(設計)人: | 雒江濤;申健;楊軍超;劉勇;高偉;鄧生雄;王小平 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 重慶華科專利事務所50123 | 代理人: | 康海燕 |
| 地址: | 400065 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | web 網站 產品 詳細信息 分類 抓取 信息庫 建立 方法 | ||
技術領域
本發明涉及互聯網網絡爬蟲領域。針對有產品編號的網站,利用網絡爬蟲建立產品id、分類id與其他詳細信息的映射關系。
背景技術
隨著Internet技術的迅速發展,Web網站產品的不斷豐富,人們對信息價值認識的不斷提高,從而激發了人們從Web網站海量產品信息中挖掘有用信息的需求。將海量的產品信息精準分類,建立產品信息庫,是挖掘有用信息的一個重要依據。在整個數據挖掘過程中,網絡爬蟲扮演著一個重要的角色,網絡爬蟲抓取的網頁是大數據分析的數據來源,這些數據將直接響著數據挖掘的準確性,但是傳統的網絡爬蟲是盡可能全面的抓取頁面信息,這樣缺乏目的性抓取將導致傳統爬蟲抓取效率的降低,這種方法對于包含海量產品信息的網站是不適用的。
通常有產品編碼的Web網站主要由產品頁面和產品分類頁面組成。產品頁面主要由產品詳細信息組成;產品分類頁面包含一個或多個子頁面,子頁面主要由產品列表信息塊和產品所屬分類信息塊組成。這樣通過分析子頁面的源文件,可以將產品歸類。
發明內容
基于現有技術存在的不足和以上發現,本發明提出一種對Web網站產品詳細信息分類抓取的方法,針對性抓取Web網站的產品分類子頁面;同時通過分析爬蟲抓取的產品分類子頁面源文件,提取產品詳細信息和產品所屬分類信息,建立網站產品id、分類id以及其他詳細信息的映射關系,構建產品信息庫。
本發明針對Web網站產品信息的獲取設計了一種網頁抓取方法,首先抓取網站產品一級分類的首頁,通過分析抓取的分類首頁源文件,獲取下一級產品分類首頁鏈接;然后逐級抓取,直到網站所有分類首頁抓取完畢;通過分析所有分類子頁面的源文件,獲取翻頁元素和各分類頁面數,然后生成各分類的子頁面鏈接,最后根據各分類的子頁面鏈接,完成各分類子頁面的抓取。
各分類頁面的抓取具體步驟如下:
步驟1:一級分類首頁的url導入url任務隊列;
步驟2:判斷url任務隊列否為空,若不為空則網站的分類首頁還未抓取完畢;若為空則表示網站的所有分類首頁已抓取完,跳至步驟8,開始抓取各分類子頁面;
步驟3:若url任務隊列不為空,則根據url隊列中的網站分類首頁url開始抓取網頁;
步驟4:記錄url的抓取狀態;保存抓取成功的分類首頁源文件和url;未抓取成功的分類首頁的url再次加入url任務隊列;三次抓取失敗的url則認為此url無效;
步驟5:解析分類首頁源文件,獲取下一級產品分類的首頁url;
步驟6:根據抓取成功的頁面url,對解析出的url去重,然后加入url任務隊列;
步驟7:循環步驟2,直到網站所有分類首頁源文件抓取完;
步驟8:解析所有分類首頁源文件,獲取各分類頁面數、翻頁元素和分類首頁url;
步驟9:根據獲取的各分類頁面數、翻頁元素和分類首頁url,生成各分類的子頁面鏈接;
步驟10:根據各分類的子頁面鏈接,抓取全部分類子頁面;
步驟11:保存各分類子頁面源文件。
進一步,本發明提出一種基于以上分類抓取方法的Web網站產品詳細信息的產品信息庫構建方法。本發明通過分析各分類子頁面源文件,根據產品列表信息塊和產品所屬分類信息塊,提取產品信息和產品所屬分類信息字段,獲取字段中的id及文本描述信息,建立產品id與所屬各級分類id的映射關系,并對id描述說明,構建產品信息庫。
信息庫分別由id映射、產品id描述、分類id描述3個表格組成。id映射表由產品id編號、產品所屬各級分類id和其他詳細信息組成;產品id描述表由產品id和產品的文本描述組成;分類id描述表由各級分類id和其文本描述組成。
建立產品信息庫的方法如下:
步驟1:解析分類子頁面源文件,獲取產品列表信息塊和產品所屬分類信息塊;
步驟2:提取產品所屬分類信息塊(如網頁面包屑導航條)中的分類信息字段;
步驟3:提取產品列表信息塊中的每個產品的產品信息字段;
步驟4:提取分類信息字段和產品信息字段中的id和文本描述信息;
步驟5:按照表格格式輸入id字段和文本描述信息,最后存入數據庫。
本發明的優點如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410190477.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種頻譜資源分配方法、系統以及接入網設備
- 下一篇:網絡接入方法及終端設備





