[發明專利]地址信息庫的更新方法和裝置有效
| 申請號: | 201510059620.7 | 申請日: | 2015-02-04 |
| 公開(公告)號: | CN104636458B | 公開(公告)日: | 2018-03-23 |
| 發明(設計)人: | 王蓉;王志軍 | 申請(專利權)人: | 中國聯合網絡通信集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司11262 | 代理人: | 李丹,栗若木 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址 信息庫 更新 方法 裝置 | ||
技術領域
本發明涉及互聯網技術領域,具體涉及一種地址信息庫的更新方法和裝置。
背景技術
移動互聯網用戶行為分析是指以識別用戶使用的互聯網應用(例如微信、QQ、微博、新浪網以及淘寶網等等)為基礎,通過對用戶相關的數據進行應用識別以識別出用戶所訪問的互聯網應用類別和頻度,從而得到用戶的上網喜好等信息。其中,應用識別是指將用戶訪問互聯網的記錄中的訪問的互聯網協議(Internet Protocol,IP)地址或訪問的統一資源定位符(Uniform Resource Locator,URL)與互聯網應用的地址信息庫中的記錄進行匹配計算,該地址信息庫中存儲與互聯網應用對應的地址信息,地址信息包括:該互聯網應用對應的IP地址和/或該互聯網應用對應的URL(注:某些互聯網應用可能只有對應的IP地址而沒有對應的URL),如果用戶訪問互聯網的記錄(例如訪問的URL)與該地址信息庫中某個互聯網應用的地址信息(例如該互聯網應用對應的URL)匹配成功,則成功識別出該記錄是用戶訪問該互聯網應用的記錄。
隨著時間的發展,互聯網應用的地址信息會發生變化,例如新增的可供訪問的IP地址或URL,因此,互聯網應用的地址信息庫就需要根據實際情況不斷更新。現有的技術方案是使用網絡爬蟲技術來更新和維護地址信息庫。網絡爬蟲是一個自動提取網頁的程序,它的基本原理為:將給定的網址信息作為目標地址,將目標地址放入待抓取隊列中,從待抓取隊列依次讀取,并將隊列中待抓取的目標地址交給網頁下載器,網頁下載器將目標地址對應的網頁的頁面內容下載下來,對頁面內容進行分析可以確定該頁面對應的應用以及該頁面中與目標地址相關的地址。由于網絡爬蟲會消耗網站的資源,容易引起網站訪問阻塞,一些互聯網應用對網絡爬蟲進行了屏蔽。因此,現有的技術方案存在以下問題:無法將所有互聯網應用的所有地址信息收集完整,地址信息庫的準確性較低。
發明內容
本發明實施例提供的地址信息庫的更新方法和裝置,能夠將所有互聯網應用的所有地址信息收集完整,提高地址信息庫的準確性。
第一方面,本發明實施例提供一種地址信息庫的更新方法,所述方法包括:
根據地址信息庫對用戶訪問互聯網的記錄進行應用識別,每條記錄中包括訪問地址和訪問時刻,查找出識別成功的記錄以及識別失敗的記錄;
對于由任意一條識別成功的記錄和任意一條識別失敗的記錄組成的兩條記錄,根據所述兩條記錄對應的兩個訪問時刻計算所述兩條記錄對應的兩個訪問地址的相關系數;
若所述兩個訪問地址的相關系數大于或等于預設值,則確定所述兩個訪問地址對應同一個互聯網應用;將所述兩個訪問地址中所述識別失敗的記錄對應的訪問地址添加到所述互聯網應用的地址庫中。
結合第一方面,在第一種可能的實現方式中,所述根據所述兩條記錄對應的兩個訪問時刻計算所述兩條記錄對應的兩個訪問地址的相關系數包括:
計算所述兩條記錄對應的兩個訪問時刻的時間差;
將所述時間差與預設時間閾值進行比較;
若所述時間差小于或等于所述預設時間閾值,則所述兩個訪問地址的相關系數為P;若所述時間差大于所述預設時間閾值,則所述兩個訪問地址的相關系數為Q;其中,P>Q。
結合第一方面的第一種可能的實現方式,在第二種可能的實現方式中,根據所述兩條記錄對應的兩個訪問時刻計算所述兩條記錄對應的兩個訪問地址的相關系數還包括:
當計算得到的所述兩個訪問地址的相關系數有K個時,將所述K個相關系數的平均值作為所述兩個訪問地址的相關系數,K為大于1的整數。
結合第一方面或其上述可能的實現方式的任一種,在第三種可能的實現方式中,所述方法還包括:
對于所述識別失敗記錄中未被添加的訪問地址,根據任意兩個未被添加的訪問地址對應的訪問時刻計算所述任意兩個未被添加的訪問地址的相關系數;
若任意兩個未被添加的訪問地址的相關系數大于或等于所述預設值,則確定所述任意兩個未被添加的訪問地址對應同一個新的互聯網應用并利用網絡爬蟲技術識別出所述新的互聯網應用;將所述任意兩個未被添加的訪問地址添加到所述新的互聯網應用的地址庫中并更新所述地址信息庫。
結合第一方面或其上述可能的實現方式的任一種,在第四種可能的實現方式中,其特征在于,所述方法還包括:
對于所述識別失敗記錄中未被添加的訪問地址,利用網絡爬蟲技術識別出所述未被添加的訪問地址對應的互聯網應用并根據所述識別結果更新所述地址信息庫。
第二方面,本發明實施例提供一種用于更新地址信息庫的裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國聯合網絡通信集團有限公司,未經中國聯合網絡通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510059620.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據查詢分析方法和系統
- 下一篇:一種數據庫表空間監控方法





