[發明專利]鍵值對數據插入列式數據庫的系統及實現方法有效
| 申請號: | 202111324503.0 | 申請日: | 2021-11-10 |
| 公開(公告)號: | CN114116739B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 李沅澤;趙子墨;董晨晨;李照川;孫永超;郭亞琨 | 申請(專利權)人: | 浪潮卓數大數據產業發展有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/22;G06F16/25;G06F16/215;G06F9/54;G06F8/61 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 214029 江蘇省無錫市濱*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 鍵值 數據 入列 數據庫 系統 實現 方法 | ||
1.一種鍵值對數據插入列式數據庫的系統,其特征在于,該系統包括,
鍵值對數據處理程序模塊,用于將鍵值對數據拆分、清洗,并處理成能夠直接導入列式存儲數據庫的格式,再將數據存入消息隊列中;其中,鍵值對數據處理程序模塊包括,
格式化子模塊,用于使用數據采集工具將采集的數據經過初步的json格式化,輸出到消息隊列topic?A中;
切分及清洗子模塊,用于消息隊列topic?A中的數據按照邏輯對json數據進行切分與清洗;
邏輯對json數據具體如下:
①、讀取邏輯對json數據第一行標志位作為第一大類數據;其中,標志位是指數據采集時拼接額外加入的字符串,用于標識數據來源;
②、讀取大括號與冒號組合字符之前的字符串作為第二大類數據;
③、讀取第二大類數據之后的大括號與中括號數量和位置作為判斷邏輯對json數據的層級;
邏輯對json數據清洗規則具體如下:
①、根據不同來源的第二大類數據做不同的key值標定,即只匹配標定的key值,未標定的key值自動過濾;
②、按照第二大類數據進行檢索,將匹配命中的第二大類數據每個層級數據分割并讀取key與value值放入二維數組中,包裝輸出至消息隊列topic?B;
列式數據庫裝載程序模塊,用于取消息隊列中的數據,將消息隊列中的數據導入列式存儲數據庫,即將消息隊列topic?B中的數據按照第一大類數據與第二大類數據分別導入列族與其對應的數據列中;
AppImage打包和部署模塊,用于將鍵值對數據處理程序模塊和列式數據庫裝載程序模塊分別打包,生成兩個AppImage文件。
2.根據權利要求1所述的鍵值對數據插入列式數據庫的系統,其特征在于,所述AppImage打包和部署模塊的打包環境要求如下:
①、linux環境:一臺最大化安裝的linux系統;
②、linux系統中安裝AppImage打包工具:linuxdeployqt和patchelf;
③、linux系統中安裝各類語言開發環境。
3.根據權利要求1所述的鍵值對數據插入列式數據庫的系統,其特征在于,所述AppImage打包和部署模塊包括,
創建子模塊,用于在命令行輸入mkdir?output創建一個文件夾;
拷貝子模塊,用于把鍵值對數據處理程序模塊或列式數據庫裝載程序模塊拷貝到output中;
執行子模塊,用于執行linuxdeployqt命令完成打包。
4.根據權利要求1所述的鍵值對數據插入列式數據庫的系統,其特征在于,所述數據采集工具包括filebeat、logstash或sqoop,filebeat、logstash或sqoop采集數據時,拼接額外的字符串,額外的字符串作為標志位用于標識數據來源。
5.根據權利要求1所述的鍵值對數據插入列式數據庫的系統,其特征在于,列式數據庫裝載程序模塊包括,
調用子模塊,用于調用列式存儲數據庫的insert數據接口;
導入子模塊,用于將消息隊列topic?B中的數據按照第一大類數據與第二大類數據分別導入列族與其對應的數據列中;
建立子模塊,用于自動根據第二大類數據建立全局索引;其中,列式存儲數據庫提供數據檢索查詢服務。
6.一種鍵值對數據插入列式數據庫的實現方法,其特征在于,該方法是基于AppImage包管理,使用列式存儲數據庫,自動解析、處理并導入不同格式的鍵值對數據;具體如下:
S1、在linux環境下,利用AppImage打包工具linuxdeployqt和patchelf分別將鍵值對數據處理程序模塊與列式數據庫裝載程序模塊打包至2個AppImage包中;
S2、使用filebeat、logstash或sqoop數據采集工具將采集的數據經過初步的json格式化,輸出到消息隊列topic?A中,消息隊列topic?A中的數據按照邏輯對json數據進行切分與清洗;其中,邏輯對json數據具體如下:
①、讀取邏輯對json數據第一行標志位作為第一大類數據;其中,標志位是指數據采集時拼接額外加入的字符串,用于標識數據來源;
②、讀取大括號與冒號組合字符之前的字符串作為第二大類數據;
③、讀取第二大類數據之后的大括號與中括號數量和位置作為判斷邏輯對json數據的層級;
邏輯對json數據清洗規則具體如下:
①、根據不同來源的第二大類數據做不同的key值標定,即只匹配標定的key值,未標定的key值自動過濾;
②、按照第二大類數據進行檢索,將匹配命中的第二大類數據每個層級數據分割并讀取key與value值放入二維數組中,包裝輸出至消息隊列topic?B;
S3、列式數據庫裝載程序模塊調用列式存儲數據庫的insert數據接口,將消息隊列topic?B中的數據按照第一大類數據與第二大類數據分別導入列族與其對應的數據列中,并自動根據第二大類數據建立全局索引。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮卓數大數據產業發展有限公司,未經浪潮卓數大數據產業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111324503.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





