[發明專利]實時數據倉庫的數據校驗方法、系統及計算機可讀介質在審
| 申請號: | 202110483615.4 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113076310A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 楊濤;王宇 | 申請(專利權)人: | 浙江太美醫療科技股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/21 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 杜娟;駱希聰 |
| 地址: | 314000 浙江省嘉興市經濟技*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實時 數據倉庫 數據 校驗 方法 系統 計算機 可讀 介質 | ||
本發明涉及一種實時數據倉庫的數據校驗方法、系統及計算機可讀介質。所述實時數據倉庫與業務數據庫進行實時數據同步,該數據校驗方法包括:記錄一校驗時刻;從所述業務數據庫中獲取所述校驗時刻之前的業務數據;等待一預設時長之后,從所述實時數據倉庫中獲取同步數據,所述同步數據對應于所述業務數據;對比所述業務數據和所述同步數據,獲得所述業務數據和所述同步數據之間的差異數據集合;以及根據所述差異數據集合獲得所述實時數據倉庫的校驗結果。本發明的數據校驗方法可以對校驗時刻之前的業務數據和同步數據進行全量校對,并且去除系統延遲造成的問題,能夠準確地發現實時數據倉庫中的錯誤,以便于及時發現錯誤并予以修復。
技術領域
本發明主要涉及臨床試驗研究領域,具體地涉及一種實時數據倉庫的數據校驗方法、系統及計算機可讀介質。
背景技術
現代臨床試驗研究越來越多的使用電子數據采集系統和大型的軟件平臺來實施臨床數據的采集、分析和管理,大大提高了臨床試驗研究的效率,為臨床研究人員帶來了極大的便利。一些臨床試驗系統采用業務軟件平臺采集臨床試驗數據,將眾多業務數據存儲在業務數據庫中,同時,將業務數據實時地同步到數據倉庫中,研究人員可以在數據倉庫中進行大數據分析。然而,在該數據同步過程中,由于采集鏈路長,數據規模大,其中任何環節發生問題都會導致數據異常,從而影響數據分析結果的準確性。對于臨床試驗研究來說,數據的準確性尤為重要,因此需要確保實時數據倉庫中的數據與業務數據庫中的數據具有高度一致性。
目前對臨床實時數據倉庫中的數據采用人工或自動測試的方法進行檢驗,然而人工測試代價高,效果差,幾乎無法在海量數據中發現少數異常;自動測試也僅僅是從海量數據中盡量抽取出具有代表性的數據,再通過執行程序語言的方式進行比對。這些方法都不能做到對海量數據的全量校對,無法百分之百的確保臨床實時數據倉庫中的數據的準確性。
發明內容
本發明所要解決的技術問題是提供一種準確全量校對實時數據倉庫的數據校驗方法、系統及計算機可讀介質。
本發明為解決上述技術問題而采用的技術方案是一種實時數據倉庫的數據校驗方法,所述實時數據倉庫與業務數據庫進行實時數據同步,其特征在于,所述方法包括:記錄一校驗時刻;從所述業務數據庫中獲取所述校驗時刻之前的業務數據;等待一預設時長之后,從所述實時數據倉庫中獲取同步數據,所述同步數據對應于所述業務數據;對比所述業務數據和所述同步數據,獲得所述業務數據和所述同步數據之間的差異數據集合;以及根據所述差異數據集合獲得所述實時數據倉庫的校驗結果。
在本發明的一實施例中,所述記錄一校驗時刻的步驟包括:采用大數據計算框架啟動一批處理作業,所述批處理作業適于從所述業務數據庫中獲取所述業務數據,以及從所述實時數據倉庫中獲取所述同步數據;以及記錄所述批處理作業的啟動時間,將所述啟動時間作為所述校驗時刻。
在本發明的一實施例中,所述大數據計算框架包括Apache Spark框架。
在本發明的一實施例中,所述對比所述業務數據和所述同步數據的步驟包括:按照唯一主鍵將所述業務數據和所述同步數據對應起來,形成合并數據表,其中,具有相同唯一主鍵的所述業務數據和所述同步數據位于所述合并數據表中的同一行;以及在所述合并數據表中逐行對比所述業務數據和所述同步數據,獲得所述業務數據和所述同步數據不一致的差異數據。
在本發明的一實施例中,所述差異數據集合包括以下三種錯誤:第一錯誤,所述業務數據包括所述唯一主鍵對應的第一數據,所述同步數據包括所述唯一主鍵對應的第二數據,所述第一數據和所述第二數據對應于相同的字段,所述第一數據不同于所述第二數據;第二錯誤,所述業務數據中包括所述第一數據,所述同步數據中不包括所述第二數據;以及第三錯誤,所述業務數據中不包括所述第一數據,所述同步數據中包括所述第二數據。
在本發明的一實施例中,所述實時數據倉庫包括刪除標記字段,所述刪除標記字段用于標記所述同步數據是否經過軟刪除操作,所述軟刪除操作不實際刪除所述同步數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江太美醫療科技股份有限公司,未經浙江太美醫療科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110483615.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





