[發明專利]一種支持用戶私有IP發現的跨屏追蹤方法有效
| 申請號: | 201810826981.3 | 申請日: | 2018-07-25 |
| 公開(公告)號: | CN108924246B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 申德榮;亓建順;聶鐵錚;寇月;于戈 | 申請(專利權)人: | 東北大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F16/9535;G06K9/62 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 支持 用戶 私有 ip 發現 追蹤 方法 | ||
本發明提供一種支持用戶私有IP發現的跨屏追蹤方法,涉及數據質量和數據集成技術領域。該方法首先基于半監督學習的迭代式方法計算數據集中所有IP的用戶私有IP概率;并基于用戶私有IP概率生成候選集;計算候選集中候選對上的各屬性的TF?IDF相似度和關聯相似度以及IP屬性上的PIPSim相似度,得到候選對的屬性相似度向量;利用GBRT模型預測候選對的相似度;最后基于得到的相似度生成相似度圖,使用圖聚類算法進行用戶聚類。本發明提供的支持用戶私有IP發現的跨屏追蹤方法,綜合考慮了設備、Cookie和已知用戶之間的用戶識別,相比于其他的跨屏追蹤方法,在準確率、召回率以及F?0.5值上都有較大幅度的提升。
技術領域
本發明涉及數據質量和數據集成技術領域,尤其涉及一種支持用戶私有IP發現的跨屏追蹤方法。
背景技術
隨著智能設備的興起,互聯網用戶可能會使用多臺設備同時瀏覽網頁,這對廣告商和網站主的個性化服務造成了很大的困擾。對于同時使用電腦和手機的用戶,廣告商不能依據電腦端的瀏覽記錄在用戶的手機端推送廣告,造成廣告推送的割裂,這對廣告商會造成巨大的利潤損失;而網站主會由于不能推送用戶的興趣點而造成用戶粘度下降,損失用戶。
跨屏追蹤是根據網絡日志識別同一互聯網用戶的多臺設備。對于用戶的手機、Pad等移動端設備可以使用設備號(如安卓設備的IMEI號和蘋果設備的IDFA號)來唯一標識一臺設備,設備號和移動設備之間是一一對應的關系;對于用戶PC,可以使用用戶瀏覽網頁的Cookie來唯一標識PC,但是同一PC可能會對應多個Cookie,PC和Cookie之間是一對多的關系。跨屏追蹤就是識別哪些設備和哪些Cookie屬于同一個用戶。
現有的跨屏追蹤方法主要分為四個過程:候選集生成、特征工程、模型訓練和后期處理。
對于候選集生成過程,由于服務器日志數量巨大,候選集生成過程直接影響了跨屏追蹤的效率。現有方法主要使用IP來生成候選集,將使用過同一IP的Cookie和設備作為候選對。然而并不是所有的IP都能用于候選集生成,對于有大量設備和Cookie接入的IP不能用于候選集生成。使用這種IP生成候選集將導致候選集的準確率大大降低。且這種基于設備和Cookie數量的生成方法具有數據敏感性,需要針對不同的數據集設計不同的生成規則,不具有通用性;而且現有的候選集生成方法只能保證較高的召回率,具有準確率比較低的局限性。
同時,現有跨屏追蹤方法中主要將跨屏追蹤問題看作是一個二分圖問題,只對移動設備和Cookie進行用戶識別,沒有考慮Cookie和Cookie的用戶識別,也沒有充分利用已知用戶的信息,導致預測結果的召回率偏低。如圖1所示,已知Cookie1、Cookie2屬于同一用戶u1,pij表示設備devi和cookiej屬于同一用戶的概率,表示設備devi與用戶u1屬于同一用戶的概率。由于現有的用戶識別過程沒有對Cookie1和Cookie2的信息進行聚合,可能會認為dev1、Cookie1以及Cookie2不屬于同一用戶,造成召回率降低;假設dev1、Cookie3和Cookie4也屬于同一用戶,通過圖1,可能會認為dev1和Cookie4屬于同一用戶,而dev1和Cookie3不屬于同一用戶,造成召回率降低。
發明內容
針對現有技術的缺陷,本發明提供一種支持用戶私有IP發現的跨屏追蹤方法,實現對服務器日志的用戶識別。
一種支持用戶私有IP發現的跨屏追蹤方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810826981.3/2.html,轉載請聲明來源鉆瓜專利網。





