[發明專利]一種支持用戶私有IP發現的跨屏追蹤方法有效
| 申請號: | 201810826981.3 | 申請日: | 2018-07-25 |
| 公開(公告)號: | CN108924246B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 申德榮;亓建順;聶鐵錚;寇月;于戈 | 申請(專利權)人: | 東北大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F16/9535;G06K9/62 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 支持 用戶 私有 ip 發現 追蹤 方法 | ||
1.一種支持用戶私有IP發現的跨屏追蹤方法,其特征在于:包括以下步驟:
步驟1、構建訓練數據集和測試數據集;選取服務器日志中己知用戶的記錄集合作為訓練數據集,其余記錄集合作為測試數據集;
步驟2、采用半監督學習的方式,計算訓練數據集和測試數據集中所有IP為用戶私有IP的概率;
步驟3、生成候選集,提高跨屏追蹤的處理效率;
步驟3.1、信息聚合;將訓練數據集中的用戶信息以及測試數據集中設備信息和Cookie信息進行聚合,記作其中idi表示用戶、設備或者Cookie,表示idj使用了次IPi;
步驟3.2、生成可用IP集合IPusable對于每一個IPi,如果IPi的用戶私有IP概率pro(IPi)大于閾值δ,則IPi可用于候選集生成,將其加入到可用IP集合IPusable
步驟3.3、生成候選集can;對于測試數據集中的每一個Cookiei,訓練數據集中的用戶uj與Cookiei的共同IP集合,記作若非空且與IPusable的交集非空,則將(Cookiei,uj)作為候選對加入到候選集can,否則不加入到候選集;測試數據集中的設備devj與Cookiei的共同IP集合,記作若非空且與IPusable的交集非空,則將(Cookiei,devj)作為候選對加入到候選集can,否則不加入到候選集;對于測試數據集中每一個devi,訓練數據集的用戶uj與devi的共同IP集合,記作若非空且與IPusable的交集非空,則將候選對(devi,uj)加入到候選集can,否則不加入到候選集;
步驟4、計算候選集的屬性相似度;針對每個候選對的屬性,計算屬性相似度,得到候選對的屬性相似度向量;對于候選對,分別對日志中的各個屬性計算詞頻-逆文本詞頻(termfrequency-inverse document frequency,即TF-IDF)的相似度以及關聯度相似度,同時計算IP屬性的PIPSim相似度,構成多維的相似度向量;
步驟4.1、計算候選集中候選對的IP屬性的PIPSim(Similarity based on User’sPrivate IP)相似度;
對用戶、設備和Cookie信息進行聚合,得到將按如下所示公式進行歸一化處理:
則聚合信息進一步表示為那么idi和idj的PIPSim相似度即為向量的余弦相似度;
步驟4.2、計算候選集中候選對的TF-IDF相似度;
將設備或者Cookie轉換為TF-IDF向量表示,對于候選對的TF-IDF相似度使用向量的余弦相似度表示;所述詞頻和逆文本詞頻的計算公式分別如公式3和公式4所示:
其中,d表示同一設備或Cookie的日志記錄集合,ft,d表示關鍵詞t在d的所有記錄中出現的頻率,max{ft′,d,t′∈d}表示詞頻中的最大數;N表示設備和Cookie的總數,|{d∈D:t∈d}|表示設備和Cookie的記錄中出現關鍵詞t的設備和Cookie的總數;
步驟4.3、計算候選集中候選對的關聯相似度;對于候選對(idi,idj)的關聯相似度用公式5進行計算:
其中,cooccur(idi,idj)為idi和idj所有日志記錄中有相同屬性值的日志數;total(idi)為idi的日志數;total(D)為候選集中總的日志數;
步驟5、對步驟4得到的屬性相似度向量進行聚合,得到候選對的相似度;
步驟6、使用圖聚類算法對設備和Cookie進行聚類,每一個類簇中的設備和Cookie屬于同一用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810826981.3/1.html,轉載請聲明來源鉆瓜專利網。





