[發明專利]一種監控系統冗余數據清洗方法在審
| 申請號: | 201910215789.5 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN110008205A | 公開(公告)日: | 2019-07-12 |
| 發明(設計)人: | 趙國堡;王海英 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 南京鼎傲知識產權代理事務所(普通合伙) 32327 | 代理人: | 林濤 |
| 地址: | 150000 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字段 監控系統 冗余數據 重復數據 清洗 數據記錄 區別度 數據集 完整度 讀取 滑動區域 匹配策略 數據清洗 重復記錄 準確度 關聯度 自適應 記錄 排序 匹配 數據庫 篩選 檢測 改進 保證 | ||
本發明公開了一種監控系統冗余數據清洗方法,具體包括以下步驟:計算待處理的數據集的每一個字段的字段區別度,讀取監控系統的數據集,得到待檢測的數據,字段區別數據庫中不同記錄的能力,某一字段取不同值的記錄個數越多,則該字段的字段區別度越大,涉及數據清洗技術領域。一種監控系統冗余數據清洗方法,使用該方法,加快了關鍵字排序的速度,適用關聯度作和作為判斷重復數據的條件,加強了篩選重復記錄的準確性,使用滑動區域自適應改變大小,保證了數據的完整度前提下,提高對重復數據清洗的精度,使用改進的重復數據匹配策略在數據記錄匹配完整度與數據記錄準確度都得到了提高,實現了監控系統對可靠性的需求。
技術領域
本發明涉及數據清洗技術領域,具體為一種監控系統冗余數據清洗方法。
背景技術
隨著油田數字化技術近幾年的發展,人們對監控可靠性的要求也在不斷提高。對油田生產的實時監控是確保油田高效工作的主要技術手段之一。由于現場設備數量大、型號多、工作環境惡劣和采集儀器自身誤差,導致采集到的監控數據中不可避免地存在數據冗余問題,影響對油田生產狀態的正確判斷,從而使異常預報準確率不高并影響分層注水配注方案的制定。這給注水系統的分析、診斷和優化帶來了很大的挑戰。
目前針對監控系統重復數據的清洗方法,根據關鍵字建立相應的滑動區域對數據庫中的記錄進行對比,由于滑動區域大小固定所以篩選重復數據的效率不高,因此需要對原始的篩選策略進行改進,使數據的可靠性達到工程需求。
發明內容
(一)解決的技術問題
針對現有技術的不足,本發明提供了一種監控系統冗余數據清洗方法,解決了監控數據中存在數據冗余的問題。
(二)技術方案
為實現以上目的,本發明通過以下技術方案予以實現:一種監控系統冗余數據清洗方法,具體包括以下步驟:
S1、計算待處理的數據集的每一個字段的字段區別度,讀取監控系統的數據集,得到待檢測的數據,字段區別數據庫中不同記錄的能力,某一字段取不同值的記錄個數越多,則該字段的字段區別度越大,數據庫中記錄的數量為W條,每條記錄由r個字段組成,對于其中第i個字段Zi,它的區分度計算公式如式(1)所示:
(1);
S2、根據字段區別度的值從大到小排序,依次從區分度最大的字段開始選擇,對每一個字段,選擇該字段的部分或全部,構成最終的排序關鍵字;
S3、在對兩條記錄中各字段進行匹配時,首先根據區別度大小對字段進行排序,選取前m個字段,算法開始僅對這m個字段進行關聯度計算如式(2)所示:
(2) ;
S4、將m個字段計算而得的相似度作和統計,與相應事先設定的限制值L作比較,若關聯度大于L就不是重復數據記錄則視為非相似重復記錄提前結束字段匹配,否則繼續剩余字段的比較,實現對非重復數據的加速篩選;
S5、根據關鍵字分配記錄比較的滑動區域,將數據按照排序好的關鍵字進行區分,使相似的記錄盡可能地排到一個鄰近的區域內排序后的數據集上滑動一個相應大小的窗口;
S6、采用不同的關鍵字多次對記錄進行比較,對數據集互不干擾地執行多次關鍵字排序算法,每次采用不同的排序關鍵字生成方案;
S7、滑動區域的大小可以根據當前滑動區域的數據重復情況而做出動態地調整,當窗口內的數據重復度比較高時,應當擴大窗口尺寸以使得窗口包含更多的記錄,對更多的記錄進行檢測,反之,如果滑動區域內的數據集重復度比較低,即相似重復數據較少,減小滑動區域的大小,所以要針對不同數據量來自適應的改變滑動區域的大小,動態計算滑動區域大小的計算公式如式(3)所示:
(3)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910215789.5/2.html,轉載請聲明來源鉆瓜專利網。





