[發明專利]在線實時用戶畫像生成方法在審
| 申請號: | 201711445692.0 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108073716A | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 白峻峰;張文戰;劉子曜;蘇偉杰 | 申請(專利權)人: | 北京諸葛找房信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/54 |
| 代理公司: | 北京一格知識產權代理事務所(普通合伙) 11316 | 代理人: | 滑春生;趙永偉 |
| 地址: | 100015 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 畫像 實時用戶 流數據 用戶行為變化 對流數據 用戶偏好 用戶日志 熱存儲 時效性 捕捉 跟蹤 | ||
1.在線實時用戶畫像生成方法,其特征在于,包括以下步驟:
(1)對用戶日志流數據化,形成流數據;
(2)對流數據進行處理;
(3)畫像的熱存儲。
2.根據權利要求1所述的在線實時用戶畫像生成方法,其特征在于,
所述的步驟(1)具體為:把收集的用戶行為日志直接存入消息隊列,即把原始的用戶行為日志流數據化,包括以下步驟:
a、實時讀取日志文件產生的新數據;
b、將日志文件解析,將每一條日志轉化成包含所有預設字段的鍵值對;c、把鍵值對序列化成json格式,存入消息隊列。
3.根據權利要求1所述的在線實時用戶畫像生成方法,其特征在于,
所述的步驟(2)具體為:使用流計算模式,處理流程如下:
1)日志數據校驗,排除不包含有效行為的垃圾數據;有效行為包括點擊,訂閱和收藏;
2)行為數據校驗,檢測行為日志的附帶屬性,排除不包含有效屬性的日志;
3)對歷史畫像提取并反序列化,從存儲的消息隊列中提取當前用戶的歷史畫像,并將歷史畫像作為加載對象;具體為:
a、從畫像庫中讀取用戶的歷史畫像數據;
b、用讀出的畫像信息實例畫一個新的畫像對象;
4)新行為日志更新;
5)更新后的畫像序列化入庫。
4.根據權利要求1所述的在線實時用戶畫像生成方法,其特征在于,所述的步驟(3)具體為:采用了畫像數據熱存儲的方式,即放入緩存,把畫像數據同時備份的緩存中供計算使用。
5.根據權利要求2所述的在線實時用戶畫像生成方法,其特征在于,
所述的新行為日志更新具體包括:
a.根據歷史畫像的產生時間計算到此時的衰減系數,衰減系數計算方法如下:衰減系數=(當前時間-畫像產生的時間)/半衰期,半衰期為180天;并對歷史畫像的屬性值與衰減系數相乘進行衰減形成歷史數據;
b.過濾掉已經衰減至0.0125的屬性值;
c.根據日志時間與當前時間對需要更新的屬性值進行衰減;方法同步驟a;
d.更新的屬性值疊加到a步驟處理的歷史數據上,產出此時的新畫像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京諸葛找房信息技術有限公司,未經北京諸葛找房信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711445692.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:方言調查方法、系統
- 下一篇:一種基于對照編輯的稿件編輯器





