[發(fā)明專利]一種面向MES的數(shù)據(jù)清洗方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011387905.0 | 申請(qǐng)日: | 2020-12-01 | 
| 公開(kāi)(公告)號(hào): | CN112416920B | 公開(kāi)(公告)日: | 2023-01-24 | 
| 發(fā)明(設(shè)計(jì))人: | 柴森春;董騰碩;王昭洋;姚分喜;張百海;崔靈果;李慧芳 | 申請(qǐng)(專利權(quán))人: | 北京理工大學(xué) | 
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/21 | 
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 王愛(ài)濤 | 
| 地址: | 100081 *** | 國(guó)省代碼: | 北京;11 | 
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 mes 數(shù)據(jù) 清洗 方法 系統(tǒng) | ||
1.一種面向MES的數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗方法包括如下步驟:
采用可變窗口的鄰近排序算法計(jì)算待清洗數(shù)據(jù)中每?jī)蓷l記錄之間的相似度;
根據(jù)每?jī)蓷l記錄之間的相似度,對(duì)待清洗數(shù)據(jù)中的重復(fù)數(shù)據(jù)進(jìn)行處理,獲得處理后的數(shù)據(jù);
采用K近鄰缺失填充算法填補(bǔ)處理后的數(shù)據(jù)中的缺失數(shù)據(jù),獲得清洗后的數(shù)據(jù);
所述采用可變窗口的鄰近排序算法計(jì)算待清洗數(shù)據(jù)中每?jī)蓷l記錄之間的相似度,具體包括:
判斷窗口內(nèi)第一條記錄與最后一條記錄的相似度是否小于第一相似度閾值,獲得第一判斷結(jié)果;
若所述第一判斷結(jié)果表示是,則利用公式增加窗口長(zhǎng)度,獲得長(zhǎng)度改變后的窗口;其中,sim0表示相似度閾值,sim(x1,xw)表示窗口內(nèi)第一條記錄x1與最后一條記錄xw之間的相似度,W表示長(zhǎng)度改變前的窗口,W′表示長(zhǎng)度改變后的窗口;
若所述第一判斷結(jié)果表示否,則利用公式減小窗口長(zhǎng)度,獲得長(zhǎng)度改變后的窗口;
計(jì)算長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第一條記錄之后的每條記錄的相似度,并將長(zhǎng)度改變后的窗口向后移動(dòng)一條記錄,返回步驟“判斷窗口內(nèi)第一條記錄與最后一條記錄的相似度是否小于第一相似度閾值,獲得第一判斷結(jié)果”,直到完成待清洗數(shù)據(jù)中的所有記錄的計(jì)算,獲得每?jī)蓷l記錄的相似度。
2.根據(jù)權(quán)利要求1所述的種面向MES的數(shù)據(jù)清洗方法,其特征在于,所述計(jì)算長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第一條記錄之后的每條記錄的相似度,具體包括:
分別令j=2,3,…,W′,利用相似度計(jì)算公式,計(jì)算長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第j條記錄的每個(gè)屬性下的相似度,獲得長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第一條記錄之后的每個(gè)屬性下的相似度;
分別令j=2,3,…,W′,利用公式對(duì)第一條記錄與第j條記錄的每個(gè)屬性下的相似度進(jìn)行加權(quán)求和,獲得長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第一條記錄之后的每條記錄的相似度;其中,sim(r1,rj)表示長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第j條記錄的相似度,sim[r1,i,rj,i]表示長(zhǎng)度改變后的窗口內(nèi)的第一條記錄與第j條記錄的第i個(gè)屬性下的相似度,n表示屬性的數(shù)量,W[i]表示第i個(gè)屬性的權(quán)重。
3.根據(jù)權(quán)利要求1所述的種面向MES的數(shù)據(jù)清洗方法,其特征在于,所述根據(jù)每?jī)蓷l記錄之間的相似度,對(duì)待清洗數(shù)據(jù)中的重復(fù)數(shù)據(jù)進(jìn)行處理,獲得處理后的數(shù)據(jù),具體包括:
判斷兩條記錄之間的相似度是否等于1,獲得第二判斷結(jié)果;
若所述第二判斷結(jié)果表示是,則采用刪除兩條記錄中的一條記錄或者將兩條記錄合并的方式,對(duì)兩條所述記錄進(jìn)行處理;
若所述第二判斷結(jié)果表示否,則判斷兩條記錄之間的相似度是否介于第一相似度閾值和第二相似度閾值之間,獲得第三判斷結(jié)果;
若所述第三判斷結(jié)果表示是,則對(duì)兩條所述記錄進(jìn)行記錄;
若所述第三判斷結(jié)果表示否,則判斷兩條記錄之間的相似度是否介于第二相似度閾值和1之間,獲得第四判斷結(jié)果;
若所述第四判斷結(jié)果表示是,則采用刪除兩條記錄中與外部源文件匹配程度低的記錄、隨機(jī)刪除兩條記錄中的一條記錄或采用兩條所述記錄的平均值替換兩條所述記錄的方式對(duì)兩條所述記錄進(jìn)行處理。
4.根據(jù)權(quán)利要求1所述的種面向MES的數(shù)據(jù)清洗方法,其特征在于,所述采用K近鄰缺失填充算法填補(bǔ)處理后的數(shù)據(jù)中的缺失數(shù)據(jù),獲得清洗后的數(shù)據(jù),具體包括:
利用處理后的數(shù)據(jù)中待填補(bǔ)的記錄中同一屬性下的所有數(shù)據(jù)的平均值,作為待填補(bǔ)的記錄中的預(yù)填補(bǔ)數(shù)據(jù);
將所述預(yù)填補(bǔ)數(shù)據(jù)填補(bǔ)至所述待填補(bǔ)的記錄,獲得預(yù)填補(bǔ)后的記錄;
對(duì)所述預(yù)填補(bǔ)后的記錄的數(shù)值型屬性的數(shù)據(jù)進(jìn)行去量綱處理,獲得去量綱處理后的記錄;
以去量綱處理后的記錄中同一屬性下的數(shù)據(jù)作為行向量,不同屬性下的對(duì)應(yīng)數(shù)據(jù)作為列向量,構(gòu)建待填補(bǔ)矩陣;
計(jì)算待填補(bǔ)矩陣中,預(yù)填補(bǔ)數(shù)據(jù)所在的行與每個(gè)無(wú)缺失數(shù)據(jù)的行的歐氏距離;
計(jì)算歐式距離較小的K個(gè)無(wú)缺失數(shù)據(jù)的行中第k列的數(shù)據(jù)的平均值,替換所述預(yù)填補(bǔ)數(shù)據(jù);其中,第k列為預(yù)填補(bǔ)數(shù)據(jù)所在的列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387905.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于MES工作流的石化企業(yè)生產(chǎn)過(guò)程控制系統(tǒng)及方法
 - 一種基于可穿戴設(shè)備的制造系統(tǒng)的運(yùn)行方法
 - 一種MES數(shù)據(jù)的驗(yàn)證方法及系統(tǒng)
 - 一種基于MES的生產(chǎn)系統(tǒng)
 - 一種分布式架構(gòu)的MES系統(tǒng)及其客戶端與服務(wù)端的交互方法
 - 一種基于MES的人員績(jī)效分析方法
 - 一種基于MES中數(shù)據(jù)采集測(cè)試方法和裝置
 - MES的監(jiān)控方法、監(jiān)控裝置及可讀存儲(chǔ)介質(zhì)
 - 便于片狀MES溶解的裝置
 - 基于MES的品質(zhì)追溯方法及系統(tǒng)
 
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
 - 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
 - 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
 - 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
 - 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
 - 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
 - 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
 - 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
 - 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
 - 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
 





