[發明專利]數據質量大數據治理實現方法、電子設備及存儲介質在審
| 申請號: | 201711252654.3 | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN108132969A | 公開(公告)日: | 2018-06-08 |
| 發明(設計)人: | 王永才;龐偉林;余永忠;陳軼斌;宋才華;林浩;范婷;徐培瑤;劉勝強;藍源娟 | 申請(專利權)人: | 廣東電網有限責任公司佛山供電局 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F8/72;G06F9/451 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 邵穗娟;湯喜友 |
| 地址: | 528200 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面數據 數據文件 預設規則 大數據 服務器 數據來源信息 治理 程序分析 存儲介質 代碼重構 電子設備 服務接口 規則標識 技術實現 數據支持 數據重構 自動生成 第三方 文檔源 元數據 缺位 解析 數據庫 發送 團隊 廠商 保存 分類 封閉 開發 | ||
本發明公開了數據質量大數據治理實現方法,包括如下步驟:根據第一預設規則提取頁面數據,將頁面數據以第二預設規則進行分類,以構成對應類別相應的元數據;將頁面數據基于程序分析技術進行代碼重構,以自動生成服務接口;將頁面數據、第一預設規則對應的規則標識和頁面數據的數據來源信息進行組合形成數據文件,將該數據文件發送至服務器,以使服務器對數據文件進行解析和保存。本發明將數據支持實現API接口,不依賴于原廠商就可以數據重構,可以在數據庫封閉、文檔源碼缺失、開發團隊缺位、第三方商業構件的情況下,進行數據質量治理模式的技術實現。
技術領域
本發明涉及一種異構數據治理技術,尤其涉及數據治理大數據治理實現方法、電子設備及存儲介質。
背景技術
目前,對于數據質量優化領域,業界主流使用集中式數據質量管理系統。傳統集中式數據質量管理系統實現了校驗規則規范化管理、規則執行時間調度、數據質量報告統一管理等能力,提高了數據質量校驗的效率和管理水平。這種集中式數據質量管理系統局限性在于使用傳統數據庫集中式存儲,當處理海量數據時容易出現性能瓶頸。
在數據治理過程中,數據采集是必不可少的一環,隨著數據量日益增加,數據采集的挑戰也變得尤為突出,其中包括:數據源多種多樣,數據量大,變化快,如何保證數據采集的可靠性和性能,如何避免重復數據,如何保證數據的質量等挑戰。目前在數據質量系統中主流的的數據采集方式數據庫導出,常用的數據抽取工具有ETL(Extract-Transform-Load),其本質即是采用數據導庫的原理;ETL工具分為兩種,一種是數據庫廠商自帶的ETL工具,如Oracle warehouse builder、Oracle Data Integrator。也有第三方工具提供商,如Kettle;開源領域也有很多的ETL工具,功能各異,強弱不一。其他數據采集的方式例如:針對Web應用,Stanford University和MIT學者提出Webzeitgeist,在代理上部署瀏覽器內核渲染Web頁面,再用爬蟲抓取頁面數據,該成果發表與國際頂級會議CHI;抓包技術:將網絡傳輸發送與接收的數據包進行截獲、重發、編輯、轉存等操作,其獲取的數據對象是在TCP/IP協議層,捕獲的數據是客戶端和服務器之間的會話序列,而并不直接關注數據對象的語義。此外,還有WebService,數據庫中間庫直連等傳統數據傳輸方法。
但是,現有的技術存在以下缺陷:
以上常用的技術,如數據批量導入技術(以ETL為代表)的缺點在于首先導庫技術需要提供數據庫的權限,這點對于數據擁有者還是源系統開發商來說都難以協調,尤其是對于垂直系統,下級單位更是無法獲得數據庫的權限。其次還需要技術人員對源系統數據庫的流程、數據字典等情況要非常熟悉,對項目實施周期影響較大;WebService方式需要業務系統以及數據接收方開發廠家開發服務接口才能進行數據交互,工程耗時量長,建設成本高。且以上提及的常用技術,均無法做到業務的交互和寫入,比如A系統的數據寫進到B系統中,或者將A和B系統的數據寫入到C系統中。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種數據質量大數據治理實現方法,其可以解決異構系統之間數據交互問題,實現業務的交互。
本發明的目的之二在于提供一種電子設備,其可以實現本發明的目的之一。
本發明的目的之三在于提供一種計算機可讀存儲介質,其可實現本發明的目的之一。
本發明的目的之一采用如下技術方案實現:
數據質量大數據治理實現方法,包括如下步驟:
數據獲取步驟:根據第一預設規則提取頁面數據,將頁面數據以第二預設規則進行分類,以構成對應類別相應的元數據;
代碼重構步驟:將頁面數據基于程序分析技術進行代碼重構,以自動生成服務接口,所述程序分析技術包括源代碼分析、字節碼分析、界面截圖快照分析和TCP流分析中的一種或多種;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司佛山供電局,未經廣東電網有限責任公司佛山供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711252654.3/2.html,轉載請聲明來源鉆瓜專利網。





