[發明專利]信息處理方法及系統在審
| 申請號: | 202010695547.3 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111737264A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 郭子聰;王電輕;黃魏楠 | 申請(專利權)人: | 智者四海(北京)技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2455 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 何明倫 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息處理 方法 系統 | ||
本公開提供了一種信息處理方法,用于查詢具有數值型標簽的元素,所述數值型標簽的數值具有至少一個數位,每個數位具有位值,所述方法包括:針對每個數位創建與該數位上的位值大小相關聯的多個集合;根據所述多個集合中的每個集合創建位圖索引;接收關于所述數值型標簽的查詢請求;使用所述位圖索引執行所述查詢請求,產生查詢結果。本公開還提供了一種信息處理系統。
技術領域
本公開涉及信息技術領域,特別涉及一種信息處理方法、系統、電子設備及計算機可讀介質。
背景技術
目前,隨著互聯網技術的普及和高速發展,互聯網購物、互聯網招聘、互聯網社交、互聯網問答等都離不開人群畫像系統,該系統被廣泛應用于推薦商品、新聞、服務等業務領域,是互聯網公司高度數據精細化運營的重要技術基礎。
人群畫像系統中,最重要的數據基礎就是用戶標簽,用戶標簽的準確性,高度影響了人群畫像系統最終的可用性,而對于用戶的部分信息,例如年齡、行為數據等,在特定情況下,有非常細粒度的查詢要求。
人群畫像系統分析和存儲用戶ID、用戶標簽、標簽的值,依靠各種維度的標簽信息,能深刻的刻畫和抽象出一個用戶的全部特征。為了能提取到具有相同標簽信息的用戶群,以發現同一類用戶群的需求,人群畫像系統需要具備支持即時查詢的能力,這需要在技術成本與使用體驗之間做出平衡。
用戶標簽的值,有一些部分是具有數值特征的,例如用戶年齡、收入等。有些雖然不是數值,但可以轉化為數值保存,例如性別、婚姻等。所以,對數值型標簽進行保存,查詢,是最基本的需要,尤其在人群畫像系統中,精確的數值型標簽的相關保存查詢需求更可以說是一種剛性需求。
因此,急需一種信息處理方法,在現有的數據架構下,在盡量少的技術成本下將對數值型標簽的查詢結果盡快返回給終端,最終達到可以秒級響應終端的查詢需求。
發明內容
有鑒于此,本公開實施例的目的在于提供一種信息處理方法及系統,通過特別設計的集合,生成相應的位圖索引,使得數據保存占用的空間減少,同時查詢速度加快,返回給用戶的時間縮小至毫秒級。
根據本公開的第一方面,提供了一種信息處理方法,用于查詢具有數值型標簽的元素,所述數值型標簽的數值具有至少一個數位,每個數位具有位值,所述方法包括:
針對每個數位創建與該數位上的位值大小相關聯的多個集合;
根據所述多個集合中的每個集合創建位圖索引;
接收關于所述數值型標簽的查詢請求;
使用所述位圖索引執行所述查詢請求,產生查詢結果。
在一個可能的實施例中,所述創建與該數位上的位值大小相關聯的多個集合,具體包括:
使得每個集合中的元素滿足如下條件,與該元素相關聯的數值在該數位上的位值大于或等于一設定值。
在一個可能的實施例中,在所述多個集合中,關于每個集合的所述設定值依次遞增。
在一個可能的實施例中,所述數值型標簽是n進制,具有m個數位,其中n為大于或等于2的整數,m為整數,所述針對每個數位創建與該數位上的位值大小相關聯的多個集合,具體包括:
篩選出該數位的位值大于或等于0的元素,得到第一集合;
篩選出該數位的位值大于或等于1的元素,得到第二集合;
以此類推,直到篩選出該數位的位值大于或等于n-1的元素,得到第n集合;以及
針對上述數值型標簽的每個數位,重復上述步驟,得到m×n個集合。
在一個可能的實施例中,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于智者四海(北京)技術有限公司,未經智者四海(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010695547.3/2.html,轉載請聲明來源鉆瓜專利網。





