[發明專利]一種腳本生成方法與裝置在審
| 申請號: | 201610551151.5 | 申請日: | 2016-07-13 |
| 公開(公告)號: | CN106886547A | 公開(公告)日: | 2017-06-23 |
| 發明(設計)人: | 孫宇 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/44 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 黃熊 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 腳本 生成 方法 裝置 | ||
技術領域
本申請涉及計算機技術領域,尤其涉及一種腳本生成方法與裝置。
背景技術
在現有技術中,由于網絡爬蟲可以抓取網頁中的文本內容,目前被廣泛的應用于搜索、數據挖掘等領域中。網絡爬蟲可以抓取網頁中的全部內容,也可以抓取網頁中的部分內容。
目前,若要利用網絡爬蟲去抓取目標網頁中的目標內容,工作人員需先編寫抓取目標內容的腳本,網絡爬蟲才能夠根據該腳本,抓取到目標內容。
例如,若現在想要利用網絡爬蟲抓取如圖1中所示的網頁中的商品的價格信息,即“價錢:$149.99”。那么,工作人員便要通過瀏覽器訪問相應的網頁,然后在該網頁對應的網頁代碼中查找“價錢:$149.99”對應的網頁代碼,即“價錢:$149.99”對應的最小的文檔對象模型(Document Object Model,dom)樹。
其中,“價錢:$149.99”對應的最小的dom樹如下所示:
<div id="kfs_family_16"class="kfs-inner-container kfs-selected"style="width:20%;left:40%;background-image:url(https://images-na.ssl-images-amazon.com/ima ges/G/01/kindle/stripe/kfs-selector-2._CB386844303_.gif);"onClick="javascript:(function(){})()">
<a class="kfs-current kfs-link">
<imgclass="kfs-img"style="margin-top:9px;"src="https://images-na.ssl-images-amazon.com/images/G/01/kindle/dp/2015/848470/famnav/fs-m._CB292709393_.p ng"/>
<br/>
Fire HD 8
<br/>
<span class="kfs-price">
$149.99
</span>
<br/>
</a>
<divid="kfs_popover_content_16"=class="kfs-popover-container"style="displ ay:none;">Incredibly thin and light,designed for entertainment</div>
在查找到“價錢:$149.99”對應的最小的dom樹后,獲取“價錢:$149.99”對應的超文本標記語言(HyperText Markup Language,HTML)屬性值信息,比如id="kfs_family_16"、class="kfs-price"等。工作人員根據該些屬性值信息,編寫出包含該些HTML屬性值信息的抓取腳本。將編寫好的腳本以及該商品對應的網頁代碼一并送入解析引擎中,以使得解析引擎可以根據抓取腳本中的id以及class,查找到“價錢:$149.99”對應的最小的dom樹,并在該最小的dom樹中提取出“價錢:$149.99”這一價格信息。
雖然通過上述方法,網絡爬蟲能夠抓取網頁中的內容,但是需要人工編寫抓取腳本,效率較低。
發明內容
本申請實施例提供一種腳本生成方法與裝置,用于解決現有技術中利用網絡爬蟲抓取網頁內容時,人工編寫抓取腳本效率較低的問題。
本申請實施例采用下述技術方案:
一種腳本生成方法,包括:
確定用戶在顯示的網頁中選定的網頁內容;
根據確定的網頁內容,確定所述網頁內容對應的網頁代碼;
根據所述網頁代碼,生成抓取腳本。
一種腳本生成裝置,包括:
內容確定模塊,確定用戶在顯示的網頁中選定的網頁內容;
代碼確定模塊,根據確定的網頁內容,確定所述網頁內容對應的網頁代碼;
腳本生成模塊,根據所述網頁代碼,生成抓取腳本。
本申請實施例采用的上述至少一個技術方案能夠達到以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610551151.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據網站的構建方法和設備
- 下一篇:數據查詢方法及裝置





