[發明專利]一種對互聯網數據進行采集的方法在審
| 申請號: | 201611044724.1 | 申請日: | 2016-11-24 |
| 公開(公告)號: | CN106776787A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 王利鑫;王洪添 | 申請(專利權)人: | 山東浪潮云服務信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司37100 | 代理人: | 孟峣 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 數據 進行 采集 方法 | ||
1.一種對互聯網數據進行采集的方法,其特征在于,其實現過程為:
首先爬取url隊列,為web爬蟲提供需要抽取數據的網站url地址,即將需要抽取數據的網站url存入爬取url隊列中;
web爬蟲從爬取url隊列中獲取需要抽取數據的網站的url信息;
web爬蟲從對應的url頁面中獲取對應的頁面內容并抽取出用戶需要的數據信息;
web爬蟲把抽取到的數據寫入數據庫中;
設計數據處理模塊,通過該數據處理模塊對數據庫中的數據進行處理。
2.根據權利要求1所述的一種對互聯網數據進行采集的方法,其特征在于,Web爬蟲依據用戶事前配置好的規則進行數據采集工作,該配置好的規則包括網頁下載規則、網頁解析規則以及內容抽取規則。
3.根據權利要求1所述的一種對互聯網數據進行采集的方法,其特征在于,數據處理模塊對數據進行處理的過程包括:
鏈接過濾,判斷當前鏈接是否在已經抓取過的鏈接集合里;
數據排重,排重即排除掉重復項,網頁排重通過比較兩個頁面之間的相似度來排除重復項;
數據整合,將采集到的數據通過關鍵字建立對應關系,即關鍵字之間的匹配。
4.根據權利要求3所述的一種對互聯網數據進行采集的方法,其特征在于,鏈接過濾的具體實現過程為:對于每一個抓取過的url,通過i個hash函數計算,得到i個值,然后與一個bit數組的i個位置的元素相互對應,在判斷某個url是否被抓取過時,首先用i個hash函數對該url計算得到i個值,再查詢大型的bit數組內的i個位置的值,若全為1說明已經被抓取過,否則為未抓取過。
5.根據權利要求3所述的一種對互聯網數據進行采集的方法,其特征在于,數據排重通過以下算法實現:輸入一個N維向量V,輸出一個C位的二進制簽名S;初始化一個C維向量Q為零,C位的二進制簽名S為零;對向量V中的每一個特征用Hash算法得到一個C位的散列值H;若H第i位是1,則Q的第i個元素加該元素的權重,否則,減去該元素的權重;若Q的第i個元素大于0,則S的第i位為l否則為0;返回簽名S;通過計算并判斷兩個簽名的海明距離,小于3則可認為相似度比較高。
6.根據權利要求3所述的一種對互聯網數據進行采集的方法,其特征在于,數據整合就是將處理后的網頁內容用一組關鍵字進行描述,這些關鍵字可以使用該網頁使用頻率最高的若干個詞匯,經過關鍵字處理后進行匹配達到數據整合的目的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東浪潮云服務信息科技有限公司,未經山東浪潮云服務信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611044724.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





