[發(fā)明專利]一種大數(shù)據(jù)量的數(shù)據(jù)稽核方法和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202211511195.7 | 申請日: | 2022-11-29 |
| 公開(公告)號: | CN116089436A | 公開(公告)日: | 2023-05-09 |
| 發(fā)明(設(shè)計(jì))人: | 何耀楓;趙黃起;李義;藺鶴鵬;王昱東 | 申請(專利權(quán))人: | 榮耀終端有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/2455 |
| 代理公司: | 北京中博世達(dá)專利商標(biāo)代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518040 廣東省深圳市福田區(qū)香蜜湖街道*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)量 數(shù)據(jù) 稽核 方法 電子設(shè)備 | ||
本申請公開了一種大數(shù)據(jù)量的數(shù)據(jù)稽核方法和電子設(shè)備,涉及大數(shù)據(jù)處理領(lǐng)域。為待比較的第一文件和第二文件中每一行數(shù)據(jù)賦予身份編碼,并為第一文件中的行數(shù)據(jù)和第二文件中的行數(shù)據(jù)分別設(shè)置相反的標(biāo)志位。這樣,將第一文件和第二文件中拼接后的數(shù)據(jù)進(jìn)行合并后,第一文件和第二文件中身份編碼相同的數(shù)據(jù)就會被抵消,剩余的數(shù)據(jù)即為第一文件和第二文件的差異數(shù)據(jù)。該方法可以快速獲取兩個大數(shù)據(jù)量文件的行級差異,提高了數(shù)據(jù)稽核的準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請涉及大數(shù)據(jù)處理領(lǐng)域,尤其涉及一種大數(shù)據(jù)量的數(shù)據(jù)稽核方法和電子設(shè)備。
背景技術(shù)
數(shù)據(jù)集成,就是將分散的數(shù)據(jù)庫中的數(shù)據(jù),邏輯地或物理地集成到一個數(shù)據(jù)集合中。在數(shù)據(jù)集成過程中,需要保證數(shù)據(jù)庫在集成前后的數(shù)據(jù)一致性。如果數(shù)據(jù)集成后與集成前差異較大,會導(dǎo)致數(shù)據(jù)不準(zhǔn)確,帶來嚴(yán)重問題。例如,實(shí)時集成場景中,數(shù)據(jù)集成的誤差可能導(dǎo)致實(shí)時大屏數(shù)據(jù)失真,無法很好地提供數(shù)據(jù)支持。例如,離線集成場景中,數(shù)據(jù)集成的誤差可能導(dǎo)致后續(xù)更大數(shù)量級的數(shù)據(jù)計(jì)算引入誤差,極大浪費(fèi)計(jì)算資源。如何快速準(zhǔn)確地對比出集成后數(shù)據(jù)與集成前數(shù)據(jù)之間的差異,是一個需要解決的問題。
發(fā)明內(nèi)容
本申請實(shí)施例提供一種大數(shù)據(jù)量的數(shù)據(jù)稽核方法和電子設(shè)備,能夠快速地對大數(shù)據(jù)量的數(shù)據(jù)文件進(jìn)行行級稽核,快速得到準(zhǔn)確的數(shù)據(jù)差異。
為達(dá)到上述目的,本申請的實(shí)施例采用如下技術(shù)方案:
第一方面,提供了一種大數(shù)據(jù)量的數(shù)據(jù)稽核方法,該方法包括:獲取待比較的第一文件和第二文件;分別對第一文件和第二文件進(jìn)行數(shù)據(jù)抽取,獲取第一文件對應(yīng)的第一數(shù)據(jù)和第二文件對應(yīng)的第二數(shù)據(jù)。分別對第一數(shù)據(jù)和第二數(shù)據(jù)中每一條數(shù)據(jù)進(jìn)行字段拼接,生成第一數(shù)據(jù)和第二數(shù)據(jù)中每一條數(shù)據(jù)的拼接字段;并生成第一數(shù)據(jù)和第二數(shù)據(jù)中每一條數(shù)據(jù)的拼接字段對應(yīng)的身份編碼,用于唯一標(biāo)識一個拼接字段;為第一數(shù)據(jù)對應(yīng)的拼接字段賦第一標(biāo)志位,為第二數(shù)據(jù)對應(yīng)的拼接字段賦第二標(biāo)志位,第一標(biāo)志位與第二標(biāo)志位為相反的兩個數(shù),第一標(biāo)志位與第二標(biāo)志位之和為0。根據(jù)第一數(shù)據(jù)中每一條數(shù)據(jù)對應(yīng)的身份編碼、對應(yīng)的拼接字段和第一標(biāo)志位生成第一數(shù)據(jù)中每一條數(shù)據(jù)的拼接數(shù)據(jù);根據(jù)第二數(shù)據(jù)中每一條數(shù)據(jù)對應(yīng)的身份編碼、對應(yīng)的拼接字段和第二標(biāo)志位生成第二數(shù)據(jù)中每一條數(shù)據(jù)的拼接數(shù)據(jù);將根據(jù)第一數(shù)據(jù)生成的拼接數(shù)據(jù)和根據(jù)第二數(shù)據(jù)生成的拼接數(shù)據(jù)合并入結(jié)果文件;其中,在合并入結(jié)果文件過程中,身份編碼相同且標(biāo)志位之和為0的拼接數(shù)據(jù)被刪除;這樣,結(jié)果文件僅包括第一文件和第二文件的差異數(shù)據(jù)。其中,差異數(shù)據(jù)的標(biāo)志位為第一標(biāo)志位,表示該條數(shù)據(jù)存在于第一文件且不存在于第二文件;差異數(shù)據(jù)的標(biāo)志位為第二標(biāo)志位,表示該條數(shù)據(jù)存在于第二文件且不存在于第一文件。
在該方法中,為待比較的第一文件和第二文件中每一行數(shù)據(jù)賦予身份編碼,并為第一文件中的行數(shù)據(jù)和第二文件中的行數(shù)據(jù)分別設(shè)置相反的標(biāo)志位。這樣,將第一文件和第二文件中拼接后的數(shù)據(jù)進(jìn)行合并后,第一文件和第二文件中相同的數(shù)據(jù)就會被抵消,剩余的數(shù)據(jù)即為第一文件和第二文件的差異數(shù)據(jù)。該方法可以快速獲取兩個大數(shù)據(jù)量文件的行級差異,提高了數(shù)據(jù)稽核的準(zhǔn)確性。
基于第一方面,在一種可能的實(shí)施方式中,將根據(jù)第一數(shù)據(jù)生成的拼接數(shù)據(jù)和根據(jù)第二數(shù)據(jù)生成的拼接數(shù)據(jù)合并入結(jié)果文件時,將身份編碼相同且標(biāo)志位相同的拼接數(shù)據(jù)合并為一條拼接數(shù)據(jù)。這樣,如果同樣的差異數(shù)據(jù)在第一文件或第二文件中出現(xiàn)多次,可以在結(jié)果文件中用一行數(shù)據(jù)進(jìn)行顯示;根據(jù)結(jié)果文件中一行數(shù)據(jù)就能夠清晰地看出差異數(shù)據(jù)在一個文件中出現(xiàn)的次數(shù),并且減少了結(jié)果文件中的數(shù)據(jù)量,更方便查看。
基于第一方面,在一種可能的實(shí)施方式中,身份編碼為一條數(shù)據(jù)的拼接字段的校驗(yàn)和;比如CRC32。這樣就能實(shí)現(xiàn)唯一標(biāo)識拼接字段。
基于第一方面,在一種可能的實(shí)施方式中,對第一文件進(jìn)行數(shù)據(jù)抽取,獲取第一數(shù)據(jù),包括:讀取第一文件中每一條數(shù)據(jù)的全部字段,獲取第一數(shù)據(jù);對第二文件進(jìn)行數(shù)據(jù)抽取,獲取第二數(shù)據(jù),包括:讀取第二文件中每一條數(shù)據(jù)的全部字段,獲取第二數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于榮耀終端有限公司,未經(jīng)榮耀終端有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211511195.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種酸棗仁百合蜂蜜的制備方法
- 下一篇:一種彈片彎形模
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





