[發(fā)明專利]離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)清洗方法有效
| 申請?zhí)枺?/td> | 202110286194.6 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN112905845B | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設(shè)計)人: | 李孝斌;廖喜年;石志立;尹超;劉宇杰;凌婕 | 申請(專利權(quán))人: | 重慶大學(xué) |
| 主分類號: | G06F16/90 | 分類號: | G06F16/90;G06F16/40;G06N5/04;G06N7/00 |
| 代理公司: | 重慶博凱知識產(chǎn)權(quán)代理有限公司 50212 | 代理人: | 黃河 |
| 地址: | 400044 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 離散 智能 制造 應(yīng)用 多源非 結(jié)構(gòu) 數(shù)據(jù) 清洗 方法 | ||
本發(fā)明公開了一種離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)清洗方法,通過對離散智能制造應(yīng)用環(huán)境下多源非結(jié)構(gòu)化數(shù)據(jù)的特征化分析和清洗類型的分類,從而按照清洗類型對應(yīng)數(shù)據(jù)清洗策略對待清洗的多源非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,解決了多源非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一化描述問題和數(shù)據(jù)分類處理復(fù)雜化問題,使得對離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)的清洗類型分類處理借助計算機(jī)執(zhí)行成為了可能,且計算機(jī)處理耗時較短,具有一定的高效性,并采用了云模型來反映多源非結(jié)構(gòu)化數(shù)據(jù)的清洗類型,避免了對模糊清洗類型表達(dá)不清等問題,使得清洗類型的分類結(jié)果更為可靠,為離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)清洗提供了一種新的技術(shù)解決方案。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)技術(shù)和數(shù)據(jù)清洗技術(shù)領(lǐng)域,具體涉及一種離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)清洗方法。
背景技術(shù)
在當(dāng)前離散智能制造環(huán)境下,大數(shù)據(jù)的逐漸發(fā)展導(dǎo)致了海量數(shù)據(jù)的收集,清洗這些海量數(shù)據(jù)并從中提取出有意義的信息就變得很重要。經(jīng)過近年來的探索和時間,廣大科研院所和企業(yè)面向離散智能制造環(huán)境的數(shù)據(jù)清洗方面開展了大量的探究及應(yīng)用,但如何對離散制造環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗,支持后續(xù)的數(shù)據(jù)挖掘的開展,一直是企業(yè)迫切需要解決的技術(shù)瓶頸,究其原因是多方面的,其中作為非結(jié)構(gòu)化數(shù)據(jù)清洗的核心——多源非結(jié)構(gòu)化數(shù)據(jù)清洗手段難題尤為突出,高效準(zhǔn)確的數(shù)據(jù)清洗是準(zhǔn)確獲取機(jī)械設(shè)備實時狀態(tài)信息的重要保障。
數(shù)據(jù)清洗(Data cleaning)是指對數(shù)據(jù)進(jìn)行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。按照一定的規(guī)則把“臟數(shù)據(jù)”(不符合要求的數(shù)據(jù))“洗掉”(清理掉),這就是數(shù)據(jù)清洗。數(shù)據(jù)清理工作,特別是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清理,由于數(shù)據(jù)處理量巨大,幾乎無法單純依靠人工完成,因此數(shù)據(jù)清理任務(wù)一般是由計算機(jī)完成,人工操作加以簡單的輔助。
不符合要求的數(shù)據(jù)主要有缺失數(shù)據(jù)(不完整的數(shù)據(jù))、異常數(shù)據(jù)(錯誤的數(shù)據(jù))、冗余數(shù)據(jù)(重復(fù)的數(shù)據(jù))三種清洗類型,其中每一類數(shù)據(jù)對應(yīng)的清晰方法和策略,都已經(jīng)有大量的研究和應(yīng)用,在確定待清洗的數(shù)據(jù)所屬的清洗類型,即可按照相應(yīng)清洗策略執(zhí)行數(shù)據(jù)清洗處理。也就是說,在確定好不同清洗類型對應(yīng)清洗策略的情況下,執(zhí)行數(shù)據(jù)清洗的工作任務(wù)重心,就是要確定數(shù)據(jù)所屬的清洗類型。
但是,離散智能生產(chǎn)線應(yīng)用環(huán)境中產(chǎn)生的多源非結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)類型主要包括視頻數(shù)據(jù)、圖片數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)等生產(chǎn)線設(shè)備運(yùn)行狀態(tài)數(shù)據(jù),如產(chǎn)線質(zhì)檢設(shè)備生成的檢測文檔、刀具切削狀態(tài)圖像、生產(chǎn)設(shè)備運(yùn)行振動、產(chǎn)線監(jiān)控視頻等,這些數(shù)據(jù)都存在著數(shù)據(jù)結(jié)構(gòu)不規(guī)則或格式不統(tǒng)一,無法直接用二維邏輯數(shù)據(jù)表進(jìn)行表達(dá)的問題;并且,離散智能制造應(yīng)用場景中的設(shè)備種類繁多,各機(jī)械裝備資源所產(chǎn)生的數(shù)據(jù)信息復(fù)雜多變,導(dǎo)致現(xiàn)階段大多數(shù)研究在支持離散制造應(yīng)用下多源非結(jié)構(gòu)化數(shù)據(jù)清洗方面的普遍性指導(dǎo)意義是有限的。其原因在于:離散智能制造應(yīng)用下多源非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)來源廣泛,缺乏統(tǒng)一的數(shù)據(jù)格式和標(biāo)準(zhǔn),數(shù)據(jù)存儲往往都是按照二進(jìn)制進(jìn)行計算機(jī)存儲,導(dǎo)致不同格式的數(shù)據(jù)分類處理十分復(fù)雜;同時,離散制造應(yīng)用環(huán)境是一個動態(tài)變化的工業(yè)活動環(huán)境,而機(jī)械設(shè)備產(chǎn)生的多源非結(jié)構(gòu)化數(shù)據(jù)往往都含有時序信息,增加了數(shù)據(jù)分類和信息維度;這些因素都導(dǎo)致了對離散智能制造應(yīng)用下的多源非結(jié)構(gòu)化數(shù)據(jù)的清洗類型確定難度大幅增加,加大了數(shù)據(jù)分類清洗的難度。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的上述不足,本發(fā)明要解決的技術(shù)問題是如何提供一種離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)清洗方法,以實現(xiàn)對離散智能制造應(yīng)用環(huán)境下多源非結(jié)構(gòu)化數(shù)據(jù)的特征化分析和清洗類型的分類,從而幫助提升離散智能制造應(yīng)用的多源非結(jié)構(gòu)化數(shù)據(jù)清洗對于計算機(jī)處理的可行性和有效性。
為解決上述技術(shù)問題,本發(fā)明采用了如下的技術(shù)方案:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110286194.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在線應(yīng)用平臺上應(yīng)用間通信的回調(diào)應(yīng)答方法、應(yīng)用及在線應(yīng)用平臺
- 應(yīng)用使用方法、應(yīng)用使用裝置及相應(yīng)的應(yīng)用終端
- 應(yīng)用管理設(shè)備、應(yīng)用管理系統(tǒng)、以及應(yīng)用管理方法
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 應(yīng)用市場的應(yīng)用搜索方法、系統(tǒng)及應(yīng)用市場
- 使用應(yīng)用的方法和應(yīng)用平臺
- 應(yīng)用安裝方法和應(yīng)用安裝系統(tǒng)
- 使用遠(yuǎn)程應(yīng)用進(jìn)行應(yīng)用安裝
- 應(yīng)用檢測方法及應(yīng)用檢測裝置
- 應(yīng)用調(diào)用方法、應(yīng)用發(fā)布方法及應(yīng)用發(fā)布系統(tǒng)





