[發明專利]用戶畫像標簽數據的處理方法在審
| 申請號: | 202210651106.2 | 申請日: | 2022-06-09 |
| 公開(公告)號: | CN114925117A | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 佘家駒;馬勝奎;劉超;肖龍;靳京;李昕;吳澤成 | 申請(專利權)人: | 國網綠色能源有限公司;國網綜合能源服務集團有限公司;國家電網有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06F16/23;G06F16/9535 |
| 代理公司: | 北京立成智業專利代理事務所(普通合伙) 11310 | 代理人: | 張江涵 |
| 地址: | 100053 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 畫像 標簽 數據 處理 方法 | ||
一種用戶畫像標簽數據的處理方法,包括:生成用于存儲用戶畫像標簽的數據庫,其中所述用于存儲用戶畫像標簽的數據庫至少包括:用于存儲原始數據的原始數據實時表、用于存儲用戶數據的用戶字典表、用于存儲用戶以及對應的用戶畫像標簽的用戶標簽表;其中所述原始數據實時表用于供應用服務寫入新產生的用戶id和用戶畫像標簽id;且所述原始數據實時表還用于將原始數據增量聚合到用戶標簽表;其中所述用戶字典表用于存儲用戶id;其中所述用戶標簽表以標簽tag_id為維度,用于標識出每一用戶對應的用戶畫像標簽;其中該用戶標簽表用于為系統提供檢索服務。
技術領域
本發明提出了一種數據處理方法,特別是指用戶畫像標簽數據的處理方法。
背景技術
用戶畫像目標是在更細致的維度上,通過屬性標簽對用戶或商戶的偏好、需求、傾向進行數字化勾勒的技術。用戶畫像可以進一步發掘用戶需求,分析用戶偏好,從而提供給用戶更具有針對性的信息推送和提高用戶的使用體驗。用于描述用戶畫像的屬性標簽,是依據用戶的注冊數據、操作行為數據、交易數據等作為數據來源,并通過可自學習自進化的算法進行開放的歸屬和歸入,通過數據在分類歸屬中的分布規律作為標簽屬性。
用戶畫像的基礎為構建標簽庫,利用現有關系型數據庫構建的用戶標簽庫主要基于寬表結構和數組結構等數據類型;但是現有的關系型數據庫對于用戶畫像的標簽存儲具有明顯的優勢和劣勢:
(1)寬表結構數據類型實現的優點是大多數數據庫都支持,但寬表列寬受限于數據塊的頁大小。以PostGreSQL數據庫8kb數據庫塊為例,該數據庫包含:主鍵、用戶id、創建時間、修改時間等必要字段外,僅能存儲約不超過2000個標簽tag字段;當條件組合查詢時效率會出現大幅度下降;
(2)數組結構數據類型實現標簽可支持更高的tag標簽位,但不支持not語法索引查詢,且占用存儲空間較高。
發明內容
針對現有的針對用戶畫像的標簽進行數據處理的數據庫存在著效率低的問題,本發明實施例的目的是提出一種用戶畫像標簽數據的處理方法,能夠更為快捷的對用戶畫像標簽數據局進行處理。
為了達到上述目的,本發明實施例提出了一種用戶畫像標簽數據處理方法,包括:
生成用于存儲用戶畫像標簽的數據庫,其中所述用于存儲用戶畫像標簽的數據庫至少包括:用于存儲原始數據的原始數據實時表、用于存儲用戶數據的用戶字典表、用于存儲用戶以及對應的用戶畫像標簽的用戶標簽表;
其中所述原始數據實時表用于供應用服務寫入新產生的用戶id和用戶畫像標簽id;且所述原始數據實時表還用于將原始數據增量聚合到用戶標簽表;其中所述原始數據實時表至少包括:
字段主鍵id、組織機構id、用戶id、標簽tag_id;其中字段主鍵id采用自增int8類型,其中標簽tag_id采用int類型;且所述原始數據實時表還包括兩個布爾型標志位:標識是否刪除,是否合并用戶字典表;
其中所述用戶字典表至少包括以下字段:
用戶的唯一標識user_id字段,其中所述user_id字段為int類型,每一user_id字段占8字節空間;
用戶組織機構唯一標識org_id字段,用于表示用戶所屬單位;其中所述org_id字段為int類型,每一org_id字段占8字節空間;當可用于數據表超過100GB后按組織機構分表,行號row_id為int類型,占8字節空間;
其中所述用戶標簽表以標簽tag_id為維度,用于標識出每一用戶對應的用戶畫像標簽;其中該用戶標簽表用于為系統提供圈人推送等服務;
其中該用戶標簽表包括以下字段:自增整數主鍵id,標簽唯一標識,組織機構唯一標識、用戶唯一標識聚合列user_ids;其中可變字串數據類型的用戶唯一標識聚合列user_ids采用varbit類型,存儲用戶字典表中按照rowid順位的比特字串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網綠色能源有限公司;國網綜合能源服務集團有限公司;國家電網有限公司,未經國網綠色能源有限公司;國網綜合能源服務集團有限公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210651106.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





