[發明專利]一種對象抓取方法在審
| 申請號: | 201810287683.1 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN110569452A | 公開(公告)日: | 2019-12-13 |
| 發明(設計)人: | 吳麗璇 | 申請(專利權)人: | 佛山市優特美邦電子商務有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06Q30/06 |
| 代理公司: | 44446 廣州潤禾知識產權代理事務所(普通合伙) | 代理人: | 周鄭奇;林名欽 |
| 地址: | 528031 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 鏈接網址 網頁 標準對象 鏈接特征 商品對象 商品展示 鏈接 子類 內存 頁面 標準化 分析 輸出 釋放 返回 聲明 展示 | ||
本發明公開一種對象抓取方法,包括輸入商品鏈接;對商品鏈接網址對應網頁進行分析,并根據展示需要抓取網頁上的對象;返回標準對象結構;釋放內存;其中,步驟S2中根據子類聲明的商品鏈接特征判斷是商品列表頁還是商品展示頁,并對不同類型的頁面進行不同的分析。本發明實現了輸入一個(或多個)商品鏈接網址,輸出一個標準化的商品對象結構。
技術領域
本發明涉及計算機領域,具體涉及一種對象抓取方法。
背景技術
通過瀏覽器展示的網頁,其內容由后臺產生。通常,內容使用超文本標記語言HTML編輯而成。目前,隨著電子商務的發展,電子商務平臺越來越多,電子商務平臺通過網頁向用戶展示商品。為了追求利益,商家通常會把商品放到不同的電子商務平臺上進行銷售。互聯網電子商務商品的網頁繁多雜亂,沒有一個統一對象結構的對象庫,以方便用戶像Google、百度收錄網頁一樣,把所有商品類信息收集起來,為提供給用戶二次分類檢索、篩選、單點瀏覽提供方便。
發明內容
本發明的目的是解決現有技術的缺陷,提供一種對象抓取方法,以建立一個統一對象結構的對象庫,以方便用戶像Google、百度收錄網頁一樣,把所有商品類信息收集起來,為提供給用戶二次分類檢索、篩選、單點瀏覽提供方便,采用的技術方案如下:
一種對象抓取方法,包括:
S1.輸入商品鏈接;
S2.對商品鏈接網址對應網頁進行分析,并根據展示需要抓取網頁上的對象;
S3.返回標準對象結構;
S4.釋放內存;
其中,步驟S2中根據子類聲明的商品鏈接特征判斷是商品列表頁還是商品展示頁,并對不同類型的頁面進行不同的分析。
作為優選,對商品列表頁的分析包括:
S21.根據超文本傳輸協議響應的對象類型生成網頁對象元素或爪哇對象標記解析結果;
S22.根據網頁對象元素或爪哇對象標記解析結果分析出這個列表的各個元素。
作為優選,步驟S22具體為根據網頁對象元素或爪哇對象標記解析結果分析出商品列表頁的:
網頁標題、字符串;
網頁標簽、數組;
網頁產品集合、數組、元素為產品對象;
當前列表共有多少頁、整型;
當前列表共有多少子列表、數組、元素為列表對象。
作為優選,對商品展示頁的分析包括:
S31.根據超文本傳輸協議響應的對象類型生成網頁對象元素或爪哇對象標記解析結果并放入內存變量;
S32.根據網頁對象元素或爪哇對象標記解析結果分析出這個頁面的各個元素。
作為優選,步驟S32具體包括:
檢查商品是處于有貨還是無貨狀態,如果無貨,將跳出執行,如果有貨則繼續往下執行;
分析貨號、字符串;
檢查貨號是否正常;
分析商品品牌名稱、字符串;
分析商品標題、字符串;
分析商品標簽、數組;
分析商品描述、字符串;
分析商品尺碼說明、字符串;
分析商品顏色、數組、顏色對象集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山市優特美邦電子商務有限公司,未經佛山市優特美邦電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810287683.1/2.html,轉載請聲明來源鉆瓜專利網。





