[發明專利]一種面向MES的數據清洗方法及系統有效
| 申請號: | 202011387905.0 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112416920B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 柴森春;董騰碩;王昭洋;姚分喜;張百海;崔靈果;李慧芳 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/21 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 王愛濤 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 mes 數據 清洗 方法 系統 | ||
本發明公開了一種面向MES的數據清洗方法及系統,所述數據清洗方法包括:采用可變窗口的SNM算法計算待清洗數據中每兩條記錄之間的相似度;根據每兩條記錄之間的相似度,對待清洗數據中的重復數據進行處理,獲得處理后的數據;采用KNN缺失填充算法填補處理后的數據中的缺失數據,獲得清洗后的數據。本發明采用改進的SNM算法計算記錄之間的相似度,并根據相似度進行重復數據處理和缺失數據填補,本發明實現了對MES中的數據進行數據清洗,減小了MES中的數據中的重復數據,并補充了MES中的數據中的缺失數據,克服了重復數據占用數據庫的存儲資源以及相似重復數據和缺失數據對生產管理與決策產生不良影響的技術缺陷。
技術領域
本發明涉及數據處理技術領域,特別涉及一種面向MES的數據清洗方法及系統。
背景技術
在制造生產中MES(Manufacturing Execution System,制造執行系統)的數據庫中會存入大量的數據,由于設備、技術等原因,難免會出現一些缺失數據、相似重復數據的異常情況,這些數據可能會對生產管理與決策產生不良影響,也可能由于無法被利用造成數據庫的存儲資源的浪費。
近年來,數據挖掘在信息產業領域的應用越來越頻繁,被越來越多的應用于MES系統的數據處理中。據統計在一個完整的數據挖掘過程中,數據預處理要花費約60%左右的時間。數據清理是數據預處理的重要組成部分。數據挖掘結果的準確性與數據集中的數據的準確性有關,如果數據集中的數據不準確,那么數據挖掘的結果必然會受到影響。數據清洗主要是處理缺失數據和清洗臟數據。數據清洗的原理是利用算法、構建模型、專家參與等方式,分析問題數據將其轉換為滿足完整性、一致性、有效性等數據質量要求的數據,從而達到提高數據質量的要求。
由于MES中的數據是多源的,容易出現相似重復數據的情況,另外傳感器故障、采集和傳輸過程干擾或生產狀態的改變,可能會出現部分數據的缺失。
現有的MES系統缺少對數據庫進行清洗的方法,存在重復數據占用數據庫的存儲資源以及相似重復數據和缺失數據對生產管理與決策產生不良影響的缺陷。數據清洗包括缺失數據和相似重復數據的處理。數據庫中的相似重復記錄是指那些客觀上表示現實世界同一實體,但是由于來自于不同數據源而產生的重復記錄或在格式和拼寫上有差異而導致數據庫管理系統不能正確識別的記錄。相似重復記錄分為兩大類,一類是完全一致的記錄,另一類是相似但是不完全相同的記錄。缺失值是由于傳感器故障、采集和傳輸過程干擾或生產狀態的改變等原因產生的空缺數據。
如何對MES中的數據進行數據清洗,以減小MES中的數據中的重復數據,并補充MES中的數據中的缺失數據,成為一個亟待解決的技術問題。
發明內容
本發明的目的是提供一種面向MES的數據清洗方法及系統,以實現對MES中的數據進行數據清洗,減小MES中的數據中的重復數據,并補充MES中的數據中的缺失數據。
為實現上述目的,本發明提供了如下方案:
一種面向MES的數據清洗方法,所述數據清洗方法包括如下步驟:
采用可變窗口的SNM算法(Sorted-neighborhood Method,鄰近排序算法)計算待清洗數據中每兩條記錄之間的相似度;
根據每兩條記錄之間的相似度,對待清洗數據中的重復數據進行處理,獲得處理后的數據;
根據每兩條記錄之間的相似度,采用KNN(K-nearestNeighbour,K近鄰)缺失填充算法填補處理后的數據中的缺失數據,獲得清洗后的數據。
可選的,所述采用可變窗口的SNM算法計算待清洗數據中每兩條記錄之間的相似度,具體包括:
判斷窗口內第一條記錄與最后一條記錄的相似度是否小于第一相似度閾值,獲得第一判斷結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387905.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電芯入殼裝置及方法
- 下一篇:用于柱塞泵的潤滑系統和柱塞泵
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





