[發明專利]檢測hive數據表的方法和裝置有效
| 申請號: | 201710352699.1 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN108958959B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 何林艷 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06F16/242 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢測 hive 數據表 方法 裝置 | ||
1.一種檢測hive數據表的方法,其特征在于,包括:
針對被測hive數據表建立配置文件,所述配置文件的配置信息包括表名和主鍵;
構建用于統計hive數據表中主鍵出現次數的data文件,所述data文件為鍵值對型,以hive數據表的數據記錄的主鍵作為鍵,并且以所述hive數據表的主鍵出現次數作為值;
在監測到有新增數據記錄插入所述hive數據表的情況下,更新所述data文件;
在所述data文件存在大于1的值的情況下,發出用于提醒數據重復的第一報警消息;
所述配置文件的配置信息還包括是否覆蓋標識位和時間變量,該方法還包括:
確認是否覆蓋標志位為肯定形態;
根據所述配置文件中的hive數據表更新前對應的所述時間變量和hive數據表更新后對應的所述時間變量確定的更新前后時差;
在所述更新前后時差大于預設時差閾值的情況下發出用于提醒時差異常的第二報警提示。
2.根據權利要求1所述的方法,其特征在于,所述更新所述data文件的步驟包括:
在所述data文件中不存在所述新增數據記錄的主鍵的情況下,新增一條鍵等于所述新增數據記錄的主鍵、值等于1的data文件記錄;
在所述data文件中存在所述新增數據記錄的主鍵的情況下,則將所述新增數據記錄的主鍵對應的原有的data文件記錄的值加1。
3.根據權利要求1所述的方法,其特征在于,在所述確認所述是否覆蓋標志位為肯定形態的步驟之后,還包括:
獲取hive數據表更新過程中的真實更新文件大小和真實更新記錄條數;
根據所述配置文件中的hive數據表更新前對應的所述時間變量和hive數據表更新后對應的所述時間變量確定掃描文件時間范圍,然后獲取所述掃描文件時間范圍內的掃描文件大小和掃描記錄條數;
計算所述掃描文件大小與hive數據表真實更新文件大小的第一偏差比例,并且計算所述掃描記錄條數與hive數據表真實更新記錄條數的第二偏差比例;
在所述第一偏差比例或第二偏差比例超過預設變差比例的情況下,發出用于提醒文件異常的第三報警提示。
4.一種檢測hive數據表的裝置,其特征在于,包括:
配置模塊,用于針對被測hive數據表建立配置文件,所述配置文件的配置信息包括表名和主鍵;
構建模塊,用于構建用于統計hive數據表中主鍵出現次數的data文件,所述data文件為鍵值對型,以hive數據表的數據記錄的主鍵作為鍵,并且以所述hive數據表的主鍵出現次數作為值;
監測模塊,用于在監測到有新增數據記錄插入所述hive數據表的情況下,更新所述data文件;
第一報警模塊,用于在所述data文件存在大于1的值的情況下,發出用于提醒數據重復的第一報警消息;
所述配置文件的配置信息還包括是否覆蓋標識位和時間變量,該裝置還包括:
標志位邏輯模塊,用于確認是否覆蓋標志位為肯定形態;
時差模塊,用于根據所述配置文件中的hive數據表更新前對應的所述時間變量和hive數據表更新后對應的所述時間變量確定的更新前后時差;
第二報警模塊,用于在所述更新前后時差大于預設時差閾值的情況下發出用于提醒時差異常的第二報警提示。
5.根據權利要求4所述的裝置,其特征在于,所述監測模塊還用于:
在所述data文件中不存在所述新增數據記錄的主鍵的情況下,新增一條鍵等于所述新增數據記錄的主鍵、值等于1的data文件記錄;
在所述data文件中存在所述新增數據記錄的主鍵的情況下,則將所述新增數據記錄的主鍵對應的原有的data文件記錄的值加1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710352699.1/1.html,轉載請聲明來源鉆瓜專利網。





