[發明專利]一種從Cookie中提取用戶樣本的方法及裝置有效
| 申請號: | 201210552981.1 | 申請日: | 2012-12-18 |
| 公開(公告)號: | CN103870671B | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 陳家耀;歐陽佑;馮是聰;吳明輝 | 申請(專利權)人: | 秒針信息技術有限公司 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 北京安信方達知識產權代理有限公司11262 | 代理人: | 栗若木,曲鵬 |
| 地址: | 100102 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 cookie 提取 用戶 樣本 方法 裝置 | ||
技術領域
本發明涉及互聯網的Cookie技術,具體涉及一種從Cookie中提取用戶樣本的方法及裝置。
背景技術
如今,互聯網的Cookie技術被大量應用。網站利用Cookie,跟蹤和記錄互聯網用戶的訪問行為,分析用戶的瀏覽習慣,從而為網站結構優化、相關信息推送、互聯網廣告投放計劃等提供數據支持。例如,某電商網站通過對Cookie行為的分析,發現80%的用戶購買A產品后都會購買B產品,所以對購買了A產品的用戶推送B產品的促銷信息。再如,在做廣告投放計劃時,通過分析發現,去過A網站的60%用戶都會訪問B網站,而僅有去過A網站的20%用戶去過C網站,為了在相同的廣告預算下覆蓋更多的人群,選取了在A和C網站同時投放廣告的投放方案。
而在對用戶行為分析時,一方面由于全部Cookie的數量往往很大,有可能達到上千萬甚至上億;另一方面一些分析工具和系統由于需要進行一些復雜計算,能處理的數據規模不大。所以需要從全體Cookie中提取一部分作為用戶樣本,只對樣本進行處理分析。
目前,從全部Cookie中提取用戶樣本的一種方法是隨機挑選。隨機挑選方法存在如下缺點:
1)由于Cookie是有生命周期的,且生命周期較短,所以直接抽取Cookie作為樣本,只能作為Cookie的一份抽樣,而不能當作對網民的一份抽樣。
2)不同Cookie的生命周期不一樣,把不同生命周期的樣本個體放在一 起比較計算其實是不合理的。例如,我們需要用樣本估算1月1號到1月31號每一天A、B、C三個網站的訪問人群的重疊度,而隨機挑選出來的Cookie有可能一部分是只在上半月存活,一部分只在下半月存活。通過這樣的樣本估計出來的數據就會有問題。
2)Cookie的行為不持續,不能滿足一些系統分析需求。例如,系統要分析“在A網站購買了某品牌商品”與“之前6個月內瀏覽過某網絡廣告”兩種行為的關聯關系,這時如果大部分樣本個體只有不超過兩個月的瀏覽行為,就無法進行這樣的分析。
還有一種抽取用戶樣本的方法是從生命周期足夠長的Cookie中挑選樣本。例如需要用樣本估算1月1號到1月31號A、B、C三個網站的訪問人群的重疊度,則從存活時間覆蓋整個1月份的Cookie中隨機抽取樣本。此種方法的存在如下缺點:
1)生命周期長的樣本,其行為分布有可能與總體分布不一致,即樣本的代表性會較差。
2)有些系統需要計算較長時間的數據,例如時間跨度超過6個月,而絕大部分Cookie的存活時間不超過6個月,此時想抽取生命周期能覆蓋計算時段的樣本將會很困難。
發明內容
本發明所要解決的技術問題是,提供一種從Cookie中提取用戶樣本的方法,以保證提取樣本的可靠性,以及對網民人群的代表性。
為了解決上述技術問題,本發明公開了一種從Cookie中提取用戶樣本的方法,包括:
確定所有Cookie之間的相似度,將相似度達到設定值的Cookie聚為一類Cookie;
針對每一類Cookie,分別生成一份樣本個體及其訪問行為,將生成的所有樣本個體構成一份樣本,其中,按以下方式分別生成各類Cookie對應的樣 本個體及其訪問行為:
實時統計各類Cookie每個時刻的瀏覽行為的概率分布,利用所述概率分布建立概率分布模型,根據所述概率分布模型隨機模擬出樣本個體用戶的瀏覽行為,并根據該類Cookie的個數,計算該類的權重。
較佳地,上述方法中確定所有Cookie之間的相似度指:
根據所有Cookie的瀏覽行為計算所有Cookie之間的相似度;或者
根據所有Cookie的信息和瀏覽行為計算所有Cookie之間的相似度。
較佳地,上述方法還包括:
當有新的Cookie加入時,確定新加入的Cookie的相似度,根據所確定的相似度將新加入的Cookie分到對應類別的Cookie中;
重新模擬新加入Cookie的此類Cookie的樣本個體用戶的瀏覽行為。
較佳地,上述方法中,根據該類Cookie的個數,計算該類的權重指:
針對各類Cookie,統計每一天中同時存活的此類Cookie的個數,將所統計的最大值作為該類Cookie的權重。
較佳地,上述方法中,實時統計各類Cookie每個時刻的瀏覽行為的概率分布指:
實時統計各類Cookie在各個網站上獨立的瀏覽概率分布;或者
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于秒針信息技術有限公司,未經秒針信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210552981.1/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





