[發明專利]索引構建方法及裝置、電子設備在審
| 申請號: | 201710617608.2 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN109947702A | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 凌宏博;李奘;曹利鋒;楊文君;常智華;楊帆 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/182 |
| 代理公司: | 北京友聯知識產權代理事務所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶子集 索引 索引構建 電子設備 索引數據 用戶數據 集群 索引創建 用戶集合 構建 并行 分發 | ||
本說明書實施例公開了一種索引構建方法及裝置、電子設備。其中方法包括:根據ES集群劃分的索引分片的數量n,將待構建索引的用戶集合劃分為n個用戶子集,其中每一用戶子集對應一個索引分片。獲取與各用戶子集對應的原始用戶數據。通過多個索引構建子任務并行地對各用戶子集對應的原始用戶數據執行索引創建動作,獲得與各用戶子集對應的索引數據。將所述用戶子集對應的索引數據分發到所述ES集群中與所述用戶子集對應的索引分片。
技術領域
本申請涉及數據庫技術領域,尤其涉及一種索引構建方法及裝置、電子設備。
背景技術
在各大網絡平臺(如網絡支付平臺、網約車平臺等)上,隨著業務的發展以及用戶數的激增,產生了大量的用戶數據,并且每一用戶的用戶數據可能包含上百個特征維度,這導致網絡平臺相關的用戶數據的數據量極大。
目前,網絡平臺產生的用戶數據可以為線上服務提供數據支持,通常,用戶數據以Hive表的形式保存在分布式文件系統(Hadoop Distributed File System,HDFS)上,然而,這種方式并不能確保用戶數據可以被穩定而快速地檢索到。為了提高數據檢索速度,需要針對用戶數據構建索引(index),然而,對數據量龐大的用戶數據構建索引的過程較為耗時,效率低下。
發明內容
有鑒于此,本申請提供一種索引構建方法及裝置、電子設備。
為實現上述目的,本申請提供的技術方案如下:
根據本申請的第一方面,提出了一種索引構建方法,包括:
根據ES集群劃分的索引分片的數量n,將待構建索引的用戶集合劃分為n個用戶子集,其中每一用戶子集對應一個索引分片;
獲取與各用戶子集對應的原始用戶數據;
通過多個索引構建子任務并行地對各用戶子集對應的原始用戶數據執行索引創建動作,獲得與各用戶子集對應的索引數據;
將所述用戶子集對應的索引數據分發到所述ES集群中與所述用戶子集對應的索引分片。
根據本申請的第二方面,提出了一種索引構建裝置,包括:
切分單元,用于根據ES集群劃分的索引分片的數量n,將待構建索引的用戶集合劃分為n個用戶子集,其中每一用戶子集對應一個索引分片;
數據獲取單元,用于獲取與各用戶子集對應的原始用戶數據;
任務執行單元,用于通過多個索引構建子任務并行地對各用戶子集對應的原始用戶數據執行索引創建動作,獲得與各用戶子集對應的索引數據;
分發存儲單元,用于將所述用戶子集對應的索引數據分發到所述ES集群中與所述用戶子集對應的索引分片。
根據本申請的第三方面,提出了一種電子設備,包括:
處理器;
用于存儲處理器可執行指令的存儲器;
所述處理器被配置為:
根據ES集群劃分的索引分片的數量n,將待構建索引的用戶集合劃分為n個用戶子集,其中每一用戶子集對應一個索引分片;
獲取與各用戶子集對應的原始用戶數據;
通過多個索引構建子任務并行地對各用戶子集對應的原始用戶數據執行索引創建動作,獲得與各用戶子集對應的索引數據;
將所述用戶子集對應的索引數據分發到所述ES集群中與所述用戶子集對應的索引分片。
根據本申請的第四方面,提出了一種計算機存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710617608.2/2.html,轉載請聲明來源鉆瓜專利網。





