[發明專利]一種行業企業數據異常行為的大數據識別方法有效
| 申請號: | 201911298999.1 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN110990393B | 公開(公告)日: | 2023-09-08 |
| 發明(設計)人: | 何煒琪;陳蓉;郭超碩;劉毅 | 申請(專利權)人: | 清華蘇州環境創新研究院;清華大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458 |
| 代理公司: | 蘇州創元專利商標事務所有限公司 32103 | 代理人: | 范晴;丁浩秋 |
| 地址: | 215000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 行業 企業 數據 異常 行為 識別 方法 | ||
本發明公開了一種行業企業數據異常行為的大數據識別方法,包括:將某一行業的企業數據進行數據清洗;對數據清洗后的數據進行預處理,所述預處理包括數據標準化和屬性值規范化;選取單指標特征,對選取的單指標特征進行交叉組合構建交叉指標特征;根據單指標特征和構建的交叉指標特征選取符合條件的指標特征,根據選取的指標特征對預處理后的企業的時間序列數據進行特征提取,識別行業排放規律;檢驗提取的特征數據是否服從正態分布,在區間[?kσ,kσ]范圍內,表示數據正常,超出此區間說明數據異常,其中k為比例系數,σ為標準差。可以識別行業排放規律,進行異常指數計算,識別數據是否異常,能定位到具體企業數據異常(造假)行為。
技術領域
本發明屬于環境診斷技術領域,具體地涉及一種行業企業數據異常行為的大數據識別方法。
背景技術
環境質量是公眾關注的焦點,如何更好地利用現有數據管理污染源企業成為相關機構的難題。對于污染源防作弊的現狀,主要可歸結為三方面:視頻監控檢測過程,及工作人員憑借觀察數據,比如檢測值過大或者過小等進行判斷。目前,作弊數據只能通過人工審核,經驗審核。甚至,更多的情況是接受到了民眾的投訴,政府部門按照流程進行督查,效果甚微。對于海量數據,人工成本很高,每天每個污染源企業會產生上百條監測數據,那么人工審核效率低下。使用機器遠程實時監控,又不能保證視頻監控的可靠性。并且其診斷模型所需數據量較大,現有模型僅利用了自動監控數據,缺少工況監控、用水、用電、原輔料等輔助生產信息。
中國專利文獻CN?110245880?A公開了一種污染源在線監控數據作弊識別方法,包含數據預處理、固定規則篩查、視頻門禁、現場稽查和基于機器學習的規則優化。其中,固定規則篩查,包括企業作弊規則篩查、企業儀器故障篩查和運維單位異常篩查。視頻門禁是一種查找企業是否作弊的工具,視頻和門禁報警會在系統展現。現場稽查是對固定規則篩查結果數據以及視頻門禁的現場核實,可以得出企業是否作弊、是否儀器故障、運維單位是否運維記錄作假等結果,機器學習是基于現場稽查的反饋優化規則,使得固定篩查結果可信度更高。該方法主要用于解決企業偷排廢水廢氣、在線監控運維不規范等問題,同時可以輔助用戶的決策分析。因此該方法決策分析并不是主要的功能,僅利用了自動監控數據,缺少工況監控、用水、用電、原輔料等輔助生產信息,然而企業數據造假的方式多種多樣,不同的造假方式對數據的影響也不盡相同,無法定位到具體企業數據造假行為。
發明內容
針對上述存在的技術問題,本發明的目的是提供一種行業企業數據異常行為的大數據識別方法,可以識別行業排放規律,進行異常指數計算,識別數據是否異常,能定位到具體企業數據異常(造假)行為。
本發明的技術方案是:
一種行業企業數據異常行為的大數據識別方法,包括以下步驟:
S01:將某一行業的企業數據進行數據清洗;
S02:對數據清洗后的數據進行預處理,所述預處理包括數據標準化和屬性值規范化;
S03:選取單指標特征,對選取的單指標特征進行交叉組合構建交叉指標特征;
S04:根據單指標特征和構建的交叉指標特征選取符合條件的指標特征,根據選取的指標特征對預處理后的企業的時間序列數據進行特征提取,識別行業排放規律;
S05:檢驗提取的特征數據是否服從正態分布,在區間[-kσ,kσ]范圍內,表示數據正常,超出此區間說明數據異常,其中k為比例系數,σ為標準差。
優選的技術方案中,所述步驟S01中數據清洗包括以下步驟:
S11:對各種不同格式的數據形式的原始數據,對其進行數值化操作;
S12:通過線性或非線性映射將樣本從高維空間映射到低維空間;
S13:根據數據的具體對象判斷數據的異常值,對數據異常值進行處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華蘇州環境創新研究院;清華大學,未經清華蘇州環境創新研究院;清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911298999.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





