[發明專利]爬取電商網站關鍵詞品類信息的方法及裝置在審
| 申請號: | 201510719610.1 | 申請日: | 2015-10-29 |
| 公開(公告)號: | CN106649322A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 郭秦龍 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙)11348 | 代理人: | 王偉鋒,劉鐵生 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 爬取電商 網站 關鍵詞 品類 信息 方法 裝置 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種爬取電商網站關鍵詞品類信息的方法及裝置。
背景技術
關鍵詞分類信息是一項十分重要的信息。尤其針對電商網站,針對用戶的一個搜索關鍵詞,正確的給出關鍵詞所屬的品類,對于電商網站以及對于搜索引擎營銷都有十分重要的意義。其中,該處的品類只針對電商,其是指依據商品的屬性,將商品劃分為若干的類別,且根據不同的維度可以進行多級品類。
網絡爬蟲是一項互聯網中十分通用,普遍存在技術。許多公司,個人都會通過網絡爬蟲來批量的、大規模的爬取萬維網上的信息。通用的網絡爬蟲,其爬取信息的原理一般為,其維護一組統一資源定位符(Uniform Resource Locator,URL)列表,首先在列表中添加一個最初的URL,然后遍歷URL列表中的每一個URL,獲取URL對應的頁面,然后提取頁面中的URL,更新到URL列表中。
目前,在爬取電商網站關鍵詞品類信息時,通常使用的就是通用的網絡爬蟲。由于電商網站的商品信息繁多,其不同商品對應不同的頁面,故要獲取不同關鍵字對應商品的品類信息,就需要反復的去從新爬取的網頁提取網頁的URL信息然后維護到URL列表中,之后再進行URL對應頁面的獲取,使得爬取電商網站關鍵詞品類信息的效率較低。
發明內容
有鑒于此,本發明提供一種爬取電商網站關鍵詞品類信息的方法及裝置,其主要目的在于提高爬取電商網站關鍵詞品類信息的效率。
為達到上述目的,本發明提供如下技術方案:
一方面,本發明提供一種爬取電商網站關鍵詞品類信息的方法,包括:
根據電商網站信息、爬取品類信息的關鍵詞構造電商網站的搜索統一 資源定位符URL;
訪問構造的電商網站的搜索URL,獲取所述URL對應的網頁的頁面信息;
對所述網頁的頁面信息進行解析,提取出所述頁面中描述電商網站關鍵詞品類的信息,得到電商網站關鍵詞品類信息。
另一方面,本發明提供一種爬取電商網站關鍵詞品類信息的裝置,包括:
構造單元,用于根據電商網站信息、爬取品類信息的關鍵詞構造電商網站的搜索統一資源定位符URL;
訪問單元,用于訪問構造的電商網站的搜索URL,獲取所述URL對應的網頁的頁面信息;
解析單元,用于對所述網頁的頁面信息進行解析,提取出所述頁面中描述電商網站關鍵詞品類的信息,得到電商網站關鍵詞品類信息。
本發明提供的爬取電商網站關鍵詞品類信息的方法及裝置,其進行爬取電商網站關鍵詞品類信息的網頁URL不是從已知網頁中提取的,而是根據電商網站信息、爬取品類信息的關鍵詞構造的,這樣相對于現有技術,省掉了從已知網頁中提取URL并且將URL存儲在URL列表中,之后再進行URL對應網頁的爬取,在一定程度上提高了爬取的網頁的效率,進而提高了爬取電商網站關鍵詞品類信息的效率。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發明實施例提供一種爬取電商網站關鍵詞品類信息的方法流程圖;
圖2示出了本發明實施例提供一種爬取電商網站關鍵詞品類信息的裝置組成框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
本發明實施例提供一種爬取電商網站關鍵詞品類信息的方法,如圖1所示,該方法包括:
101、根據電商網站信息、爬取品類信息的關鍵詞構造電商網站的搜索URL。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510719610.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:思維導圖的顯示方法及裝置
- 下一篇:椅子(G49)





