[發明專利]一種用戶畫像方法與裝置在審
| 申請號: | 202011060473.2 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112182391A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 李莉莉;李曉宇;周宇;陳雪;張焱 | 申請(專利權)人: | 北京神州泰岳智能數據技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06K9/62;G06F16/951;G06F16/955 |
| 代理公司: | 北京市隆安律師事務所 11323 | 代理人: | 權鮮枝 |
| 地址: | 100081 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 畫像 方法 裝置 | ||
1.一種用戶畫像方法,其特征在于,預先構建標簽規則庫,標簽規則庫包括多種畫像標簽,每種畫像標簽對應不同的畫像標簽值,每個畫像標簽值對應有先驗概率,所述方法包括:
獲取待畫像用戶的多場景數據;
將待畫像用戶的多場景數據與標簽規則庫的畫像標簽進行匹配,得到目標數據;
根據與目標數據匹配的各個畫像標簽所對應的各個畫像標簽值的先驗概率,利用樸素貝葉斯算法計算各個畫像標簽的最優畫像標簽值,根據最優畫像標簽值生成用戶畫像結果。
2.如權利要求1所述方法,其特征在于,構建標簽規則庫的方法包括:
獲取多場景的畫像樣本數據,并根據多場景的畫像樣本數據提取標簽規則庫的多種標簽規則和場景標志,其中,標簽規則用于指示獲取畫像樣本數據的方式,場景標志用于指示獲取指定場景的畫像樣本數據;
根據畫像樣本數據統計每個畫像標簽的畫像標簽值在各個相關標簽規則和相關場景標志下的概率值,所述概率值為該畫像標簽值的先驗概率;
根據畫像標簽值、標簽規則、場景標志和先驗概率,生成標簽規則庫中具備先驗概率的畫像標簽。
3.如權利要求2所述方法,其特征在于,構建標簽規則庫的方法還包括:
根據業務需求制定畫像標簽的畫像標簽值;
根據畫像標簽值、標簽規則和場景標志,生成標簽規則庫中不具備先驗概率的畫像標簽。
4.如權利要求2或3所述方法,其特征在于,在生成標簽規則庫中的畫像標簽之后,還包括:
統計標簽規則庫中各個標簽規則對應的活躍用戶量占比;
在標簽規則對應的活躍用戶量占比超過檢驗閾值時,生成預警信息;
根據預警信息排查活躍用戶量占比超過檢驗閾值的標簽規則是否有效,將無效的標簽規則從標簽規則庫中刪除。
5.如權利要求3所述方法,其特征在于,根據與目標數據匹配的各個畫像標簽所對應的各個畫像標簽值的先驗概率,利用樸素貝葉斯算法計算各個畫像標簽的最優畫像標簽值,包括:
對目標數據進行去噪處理,過濾掉用戶屬性度量值小于預設閾值的數據,得到去噪后的數據;
對去噪后的數據按照用戶屬性進行匯總,得到每種用戶屬性對應的匯總數據;
根據匯總數據對應的畫像標簽對待畫像用戶進行用戶畫像。
6.如權利要求5所述方法,其特征在于,根據匯總數據對應的畫像標簽對待畫像用戶進行用戶畫像,包括:
當匯總數據對應的畫像標簽具備先驗概率時,利用所述匯總數據對應的先驗概率并通過樸素貝葉斯算法計算出待畫像用戶該畫像標簽的最優畫像標簽值;
當匯總數據對應的畫像標簽不具備先驗概率時,根據匯總數據對應的用戶屬性度量值確定出待畫像用戶該畫像標簽的最優畫像標簽值;
根據各個畫像標簽的最優畫像標簽值生成待畫像用戶的用戶畫像表。
7.如權利要求6所述方法,其特征在于,在得到各個畫像標簽的最優畫像標簽值之后,還包括:
對待畫像用戶的各個畫像標簽進行矛盾性驗證,對最優畫像標簽值矛盾的畫像標簽進行取舍處理,得到經過矛盾性驗證的畫像標簽;
根據經過矛盾性驗證的畫像標簽及其最優畫像標簽值,生成用戶畫像表對待畫像用戶進行多維度描述。
8.如權利要求1所述方法,其特征在于,獲取待畫像用戶的多場景數據,包括:
利用深度包檢測工具和/或爬蟲工具獲取待畫像用戶在設定時間內的上網行為數據、位置數據、通信數據、設備屬性數據、實名制基礎數據中的一種或多種;
對獲取到的數據進行格式統一化處理后,得到待畫像用戶的多場景數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳智能數據技術有限公司,未經北京神州泰岳智能數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011060473.2/1.html,轉載請聲明來源鉆瓜專利網。





