[發明專利]網絡爬蟲在抓取網頁或數據時再過濾的方法在審
| 申請號: | 201310754635.6 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103744944A | 公開(公告)日: | 2014-04-23 |
| 發明(設計)人: | 朱龍騰 | 申請(專利權)人: | 上海伯釋信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 201100 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 爬蟲 抓取 網頁 數據 過濾 方法 | ||
發明領域
本發明涉及一種收索過程中抓取網頁的方法,屬于網絡技術領域。
背景技術
網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。網絡爬蟲是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。它收索的目標網頁的的準確性還不是很高,為我們獲取需要的信息帶來了一定的困難性。為此,我們提出一種網絡爬蟲在抓取網頁或數據是在過濾的方法。
發明內容
本發明為解決目前網絡爬蟲在收索過程中抓取目標網頁不準確的問題,提供一種網絡爬蟲在抓取網頁或數據時再過濾的方法。本發明包括以下步驟:
步驟一:輸入需要收索信息的關鍵詞;
步驟二:服務器收索URL的地址;
步驟三:從所收索URL地址中抓取目標網頁的信息;
步驟四:再次輸入二級收索關鍵詞;
步驟五:再次抓取網頁的信息;
步驟六:輸出目標信息。
發明效果:本發明在網絡爬蟲自動收索網頁的基礎上對網頁再次過濾,現在互聯網上的信息量很大,對我們而言如果想要需找目標信息,需要耗費很大的人力,而且不知道該信息是否是最佳的一個,該方法細化了收索信息,為我們獲取目標信息提供了方便有效的方法。
附圖說明
圖1為網絡爬蟲在抓取網頁或數據時再過濾方法的流程圖。
具體實施方式
具體實施方式:參見網絡爬蟲在抓取網頁或數據時再過濾方法的流程圖1,本實施方式由以下步驟組成:
步驟一:輸入需要收索信息的關鍵詞;
步驟二:服務器收索URL的地址;
步驟三:從所收索URL地址中抓取目標網頁的信息;
步驟四:再次輸入二級收索關鍵詞;
步驟五:再次抓取網頁的信息;
步驟六:輸出目標信息。
輸入需要收索信息的關鍵詞的長短不限,服務器收索URL的地址之前對關鍵詞進行了分析,然后選擇的收索URL的地址,從所收索URL地址中抓取目標網頁的信息以列表的形式顯示,再次輸入二級收索關鍵詞為目標信息中更具體的描述性詞語。
對于本領域技術人員而言,顯然本發明不限于上述示范性實施例的細節,而且在不背離本發明的精神或基本特征的情況下,能夠以其他的具體形式實現本發明。因此,無論從哪一點來看,均應將發明例看作是示范性的,而且是非限制性的,本發明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化囊括在本發明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海伯釋信息科技有限公司,未經上海伯釋信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310754635.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于北斗衛星的天然氣管道隱患排查系統和方法
- 下一篇:一種新型便于打理的鍵盤





