[發明專利]數據處理方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110004427.9 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112732717A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 薛偉鵬;朱成寶 | 申請(專利權)人: | 廣州方硅信息技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/23;G06F16/2455;G06F16/27 |
| 代理公司: | 廣州利能知識產權代理事務所(普通合伙) 44673 | 代理人: | 王增鑫 |
| 地址: | 511442 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請公開一種數據處理方法、裝置、計算機設備及存儲介質,包括:獲取待存儲的名單數據,所述名單數據中包括多條名單信息;基于所述名單數據,生成與所述名單數據對應的布隆過濾器的第一參數因子,所述第一參數因子包括:布隆過濾器的大小以及參與存儲運算的多個哈希函數;將所述名單數據中的名單信息逐條輸入至所述多個哈希函數中,生成與所述名單信息映射的多個偏移數字;將所述偏移數字映射至預設的存儲位圖的位圖點陣中,并將所述偏移數字對應的存儲柵格標記為存儲狀態。通過上述映射存儲名單數據在數據庫中的存儲狀態,能夠將冗長的名單信息映射成一組簡短的數組,通過位圖存儲的方式進行記錄,能夠大大降低名單數據入庫存儲的存儲空間。
技術領域
本申請實施例涉及數據處理領域,尤其是一種數據處理方法、裝置、計算機設備及存儲介質。
背景技術
“大數據”通常指的是那些數量巨大、難于收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。
名單數據作為“大數據”中的一員,由于使用場景比較普遍,在用戶登錄,權限管理和黑名單等領域被廣泛應用。但是,本申請創造的發明人在研究中發現,現有技術中,名單數據存儲方式存在占用存儲空間大的問題。
發明內容
本申請實施例提供一種能夠大幅降低名單數據存儲空間且方便調用的一種數據處理方法、裝置、計算機設備及存儲介質。
為解決上述技術問題,本申請創造的實施例采用的一個技術方案是:提供一種數據處理方法,包括:
獲取待存儲的名單數據,其中,所述名單數據中包括多條名單信息;
基于所述名單數據,生成與所述名單數據對應的布隆過濾器的第一參數因子,其中,所述第一參數因子包括:布隆過濾器的大小以及參與存儲運算的多個哈希函數;
將所述名單數據中的名單信息逐條輸入至所述多個哈希函數中,生成與所述名單信息映射的多個偏移數字;
將所述偏移數字映射至預設的存儲位圖的位圖點陣中,并將所述偏移數字對應的存儲柵格標記為存儲狀態,其中,所述存儲位圖的大小與所述布隆過濾器的大小成正相關。
可選地,所述基于所述名單數據,生成與所述名單數據對應的布隆過濾器的第一參數因子包括:
獲取所述名單數據中表征所述名單信息條數的數據參數;
將所述數據參數表征的數值與預設的參考閾值進行比對;
當所述數據參數表征的數值大于或者等于所述參考閾值,確定生成與所述名單數據對應的布隆過濾器的第一參數因子。
可選地,所述基于所述名單數據,生成與所述名單數據對應的布隆過濾器的第一參數因子之后,包括:
獲取互聯節點的節點通信列表;
基于所述通信列表,將所述第一參數因子擴散至分布式網絡中,以使所述分布式網絡中其余節點根據擴散信息更新各自布隆過濾器的參數值。
可選地,所述將所述名單數據中的名單信息逐條輸入至所述多個哈希函數中,生成與所述名單信息映射的多個偏移數字包括:
將所述名單數據中的名單信息逐條輸入至所述多個哈希函數中,生成與所述名單信息映射的多個哈希值;
對所述多個哈希值分別進行取余運算,生成所述多個偏移數字。
可選地,所述將所述偏移數字映射至預設的存儲位圖的位圖點陣中,并將所述偏移數字對應的存儲柵格標記為存儲狀態之后,包括:
獲取所述名單數據的業務標識;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州方硅信息技術有限公司,未經廣州方硅信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110004427.9/2.html,轉載請聲明來源鉆瓜專利網。





