[發(fā)明專利]一種互聯(lián)網(wǎng)用戶最大似然地理位置發(fā)現(xiàn)方法及發(fā)現(xiàn)系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410762954.6 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104484389A | 公開(公告)日: | 2015-04-01 |
| 發(fā)明(設(shè)計)人: | 黃建鵬;陳靜 | 申請(專利權(quán))人: | 焦點科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/12 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 互聯(lián)網(wǎng) 用戶 最大 地理位置 發(fā)現(xiàn) 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種互聯(lián)網(wǎng)用戶最大似然地理位置發(fā)現(xiàn)方法及發(fā)現(xiàn)系統(tǒng),用于提供互聯(lián)網(wǎng)用戶地理位置的最大似然估計,屬于互聯(lián)網(wǎng)技術(shù)。
背景技術(shù)
在互聯(lián)網(wǎng)企業(yè)每天都有大量用戶點擊產(chǎn)生的訪問日志數(shù)據(jù),專利“一種基于IP地址信息獲取計算機精確地理位置信息的方法”(專利申請?zhí)枺?00710070601.X)通過訪問日志中的IP和IP地址庫匹配,可以即時知道每一條訪問行為所在國家、省份和城市地理信息。而專利“一種用于監(jiān)控網(wǎng)站訪客地理位置和訪問狀態(tài)的系統(tǒng)及方法”(專利申請?zhí)枺?00710101333.3)利用實時得到的用戶IP地理信息可實時監(jiān)控并展示網(wǎng)站訪客的詳細(xì)數(shù)據(jù)信息,也能夠有效地定位網(wǎng)站中的異常流量、惡意訪問源IP地址的地理位置與INTERNET注冊信息。
但是對于互聯(lián)網(wǎng)企業(yè)來講除了即時用戶地理位置外,還希望知道用戶中長期所在的主要地理位置,這對于相對穩(wěn)定的分析用戶、了解用戶及對用戶服務(wù)都非常需要。對于用戶中長期最可能的地理位置估計(下面我們統(tǒng)一稱為用戶最大似然地理位置)還面臨如下兩重挑戰(zhàn):
1、很多互聯(lián)網(wǎng)允許未登錄用戶進(jìn)行訪問,造成大量訪問日志的用戶身份信息為空,為了擴大分析樣本數(shù)據(jù),我們有必要為這部分?jǐn)?shù)據(jù)盡可能確定其用戶身份;
2、用戶涉及多地理位置訪問,我們還需要確定其最大似然地理位置。
發(fā)明內(nèi)容
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種互聯(lián)網(wǎng)用戶最大似然地理位置發(fā)現(xiàn)方法及發(fā)現(xiàn)系統(tǒng),解析目前互聯(lián)網(wǎng)用戶中長期訪問網(wǎng)絡(luò)地理位置信息問題。
技術(shù)方案:為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種互聯(lián)網(wǎng)用戶最大似然地理位置發(fā)現(xiàn)方法,首先從網(wǎng)站平臺數(shù)據(jù)源系統(tǒng)中的原始訪問日志中按提取規(guī)則和提取周期提取基礎(chǔ)數(shù)據(jù);然后對基礎(chǔ)數(shù)據(jù)進(jìn)行加工分類形成用戶信息和Cookie集相關(guān)聯(lián)的中間層數(shù)據(jù);接著對中間層數(shù)據(jù)進(jìn)行提取,具體提取規(guī)則為:將中間層數(shù)據(jù)中未登錄用戶(登錄用戶名為空)的Cookie集置空,抽取出登錄用戶(登錄用戶名不為空)的Cookie集,將登錄用戶的Cookie集關(guān)聯(lián)原始訪問日志得到登錄用戶的所有訪問信息集,進(jìn)而得到將登錄用戶的IP集,將登錄用戶的IP集關(guān)聯(lián)IP地址庫得到登錄用戶在訪問互聯(lián)網(wǎng)時的地理位置,將得到的地理位置信息存儲到后臺服務(wù)器中并實時或周期性更新;最后對新用戶(登錄用戶和未登錄用戶)的訪問信息集使用最大似然算法計算出該用戶最經(jīng)常活動的地理位置;其中,基礎(chǔ)數(shù)據(jù)包括一定時長內(nèi)的非爬蟲的訪問互聯(lián)網(wǎng)的時間、用戶名、IP和Cookie信息,IP地址庫用于存放IP段對應(yīng)的地理位置信息。
上述發(fā)現(xiàn)方法具體包括如下步驟:
(1)從網(wǎng)站平臺數(shù)據(jù)源系統(tǒng)中的原始訪問日志中按提取規(guī)則和提取周期提取非爬蟲的訪問日志,該部分訪問日志包含用戶訪問互聯(lián)網(wǎng)的時間、用戶名、IP和Cookie信息;
(2)從步驟(1)獲得的部分訪問日志中抽取登錄用戶訪問日志,該登錄用戶訪問日志包含用戶訪問互聯(lián)網(wǎng)的時間、用戶名、IP和Cookie信息;
(3)從步驟(2)得到的登錄用戶訪問日志中提取登錄用戶的Cookie集;
(4)將登錄用戶的Cookie集關(guān)聯(lián)原始訪問日志得到登錄用戶的所有訪問信息集,該訪問信息集包括用戶訪問互聯(lián)網(wǎng)的時間、用戶名、IP和Cookie;
(5)建立IP地址庫用于存放IP段對應(yīng)的地理位置信息(國家、省份和城市),IP地址庫中的數(shù)據(jù)按照IP段遞增或遞減順序排列并建立代理關(guān)鍵字;
(6)生成用戶訪問地理位置集,具體方法為:將步驟(4)獲取的登錄用戶的所有訪問信息集與步驟(5)獲得的IP地址庫相關(guān)聯(lián),生成用戶訪問地理位置集,該用戶訪問地理位置集包括登錄用戶訪問互聯(lián)網(wǎng)的時間、用戶名、IP和地理位置;將用戶訪問地理位置集存儲到后臺服務(wù)器中并實時或周期性更新;
(7)基于步驟(6)獲得的用戶訪問地理位置集,建立用戶最大似然地理位置算法;
(8)使用步驟(7)得到的用戶最大似然地理位置算法對新的用戶(登錄用戶和未登錄用戶)的訪問信息集進(jìn)行計算,獲得該新的用戶最經(jīng)常或最可能的進(jìn)行生產(chǎn)經(jīng)營活動的地理位置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于焦點科技股份有限公司,未經(jīng)焦點科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410762954.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品





