[發明專利]一種MES系統的標識數據庫去重方法及系統有效

申請號：	202110023231.4	申請日：	2021-01-08
公開（公告）號：	CN112685399B	公開（公告）日：	2022-10-18
發明（設計）人：	柴森春;王昭洋;黃經緯;張百海;崔靈果;李慧芳;姚分喜	申請（專利權）人：	北京理工大學
主分類號：	G06F16/215	分類號：	G06F16/215
代理公司：	北京高沃律師事務所 11569	代理人：	杜陽陽
地址：	100081 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種 mes 系統標識數據庫方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種MES系統的標識數據庫去重方法及系統，所述去重方法包括：將待處理的每個標識數據庫分別作為一個從節點，將空閑的運算節點作為主節點，并對所述從節點進行順序標號；利用SNM算法將所有從節點中的數據分成N份；計算每個數據集的最小簽名矩陣；根據每個數據集的最小簽名矩陣，計算每個數據集中每兩個數據元之間的相似度；根據每個數據集中每兩個數據元之間的相似度，對每個數據集中的數據源進行去重處理。本發明采用數據集劃分的方式減小數據傳輸過程中的耗時，通過構建最小簽名矩陣，通過對最小簽名矩陣進行交互，進行相似度計算，無需數據元的交互，保證了數據的隱私性，并進一步減小了數據傳輸過程中的耗時。

技術領域

本發明涉及數據處理技術領域，特別涉及一種MES系統的標識數據庫去重方法及系統。

背景技術

相似重復數據是指，數據庫中存在這樣的兩條數據1R、2R，它們的內容相同或者相似，且都對應著同一個現實實體，則數據對1R、2R互為相似重復數據。實際數據庫中可能存在多對互為相似重復的數據，它們的存在降低了數據的質量，可能會妨礙系統的正常運行，甚至會影響企業信息管理系統決策的正確性。

面向MES的工業互聯網統一標識數據庫，是一個存儲著MES系統中的統一數據元標識數據庫由許多數據庫服務器組成的，其中存儲著大量的統一數據元。不同的標識之間，它們對應的地址存儲的數據可能是相似重復數據。

傳統的大多數去重方法都是直接對數據進行操作，直接將數據傳送到統一的臨時數據庫進行相似度計算操作，一個問題是大量數據傳輸耗時很久，另一個問題是部分公司想要保護數據，不愿意公開數據。

如何減小去重處理過程中數據傳輸造成的耗時，并保證數據的隱私，成為一個亟待解決的技術問題。

發明內容

本發明的目的是提供一種MES系統的標識數據庫去重方法及系統，以實現減小去重處理過程中數據傳輸造成的耗時，并保證數據的隱私。

為實現上述目的，本發明提供了如下方案：

一種MES系統的標識數據庫去重方法，所述去重方法包括如下步驟：

將待處理的每個標識數據庫分別作為一個從節點，將空閑的運算節點作為主節點，并按照標識數據庫中存儲的數據的重要程度對所述從節點進行順序標號；