[發明專利]一種大數據處理方法和系統在審
| 申請號: | 202310191803.9 | 申請日: | 2023-02-27 |
| 公開(公告)號: | CN116308511A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 韋吉謀;陸振洪;吳瑞華 | 申請(專利權)人: | 北京神州泰岳軟件股份有限公司 |
| 主分類號: | G06Q30/0207 | 分類號: | G06Q30/0207;G06F16/2455 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 朱紫曉;孫亞芹 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 系統 | ||
1.一種大數據處理方法,其特征在于,包括:
根據目標存儲數據的屬性劃分所述目標存儲數據,獲取至少一個字段,所述屬性包括用戶的自然屬性、用戶的地址和操作數據的部分字段中的一個或多個;
根據所述至少一個字段中第一字段的屬性,確定所述第一字段對應的關鍵值碼值對,所述關鍵值碼值對包括關鍵值和碼值,所述關鍵值為整型數據類型,所述碼值為所述第一字段或者所述第一字段所存儲的位置;
將所述第一字段對應的關鍵值和碼值轉化為二進制數據,并以比特為單位,將所述關鍵值對應的二進制數據和所述碼值對應的二進制數據相鄰存儲于存儲空間,其中,具有相同屬性的字段對應的二進制數據占據所述存儲空間的長度相同。
2.根據權利要求1所述的方法,其特征在于,所述根據所述至少一個字段中第一字段的屬性,確定所述第一字段對應的關鍵值碼值對,包括:
根據所述至少一個字段中第一字段的屬性和第一關聯關系,確定所述第一字段對應的關鍵值,將所述第一字段作為碼值并結合對應的關鍵值,獲取所述第一字段對應的關鍵值碼值對,其中,所述第一關聯關系用于關聯被編碼字段、所述屬性和至少一個關鍵值,所述至少一個關鍵值包括所述第一字段對應的關鍵值,所述被編碼字段包括所述第一字段,或者,
采用城市哈希64位字符串散列算法計算所述第一字段對應的關鍵值,將所述第一字段存儲到磁盤,并將存儲所述第一字段的位置作為碼值,確定所述第一字段對應的關鍵值碼值對。
3.根據權利要求2所述的方法,其特征在于,所述將所述第一字段存儲到磁盤,包括:
將所述第一字段的二進制數據按照數據頁能夠存儲的數據量劃分為至少一份,所述數據頁存儲于內存中用于緩存數據的系統分區;
將至少一份的所述第一字段的二進制數據存儲于至少一個所述數據頁;
在周期性將內存中用于緩存數據的系統分區的數據頁存儲到磁盤的過程中,在下一個周期的時間段內,將所述第一字段存儲于的數據頁存儲到磁盤中,并刪除內存中用于緩存數據的系統分區中相應的數據頁。
4.根據權利要求1-3中任一項所述的方法,其特征在于,所述根據所述至少一個字段中第一字段的屬性,確定所述第一字段對應的關鍵值碼值對,包括:
根據已存儲的關鍵值碼值對和所述至少一個字段中第一字段,確定已存儲的字段是否包括所述第一字段;
若包括,根據所述已存儲的關鍵值碼值對,確定所述第一字段對應的關鍵值碼值對;
若不包括,根據所述至少一個字段中第一字段的屬性,確定所述第一字段對應的關鍵值碼值對。
5.根據權利要求1-3中任一項所述的方法,其特征在于,在將所述第一字段對應的關鍵值和碼值轉化為二進制數據,并以比特為單位,將所述關鍵值對應的二進制數據和所述碼值對應的二進制數據相鄰存儲于存儲空間之前,所述方法包括:
根據所述第一字段對應的關鍵值,確定存儲所述第一字段對應的關鍵值的哈希塊的位置,其中,所述哈希塊用于存儲多個哈希數據塊,每一所述哈希數據塊用于存儲多個關鍵值碼值對,每一所述哈希塊存儲的多個哈希數據塊之間采用鏈式結構;
根據存儲所述第一字段對應的關鍵值的哈希塊的位置,確定存儲所述第一字段對應的關鍵值和碼值的目標位置。
6.根據權利要求5所述的方法,其特征在于,所述以比特為單位,將所述關鍵值對應的二進制數據和所述碼值對應的二進制數據相鄰存儲于存儲空間,包括:
根據所述目標位置,并以比特為單位,將所述關鍵值對應的二進制數據和所述碼值對應的二進制數據存儲于存儲空間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳軟件股份有限公司,未經北京神州泰岳軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310191803.9/1.html,轉載請聲明來源鉆瓜專利網。





