[發明專利]一種基于層次聚類和直方圖算法的能耗在線異常檢測方法在審
| 申請號: | 202011329439.0 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112288597A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 王浩磊;宋佶聰;何金輝;李哲 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06Q50/06 | 分類號: | G06Q50/06;G06Q10/06;G06F16/215 |
| 代理公司: | 四川省成都市天策商標專利事務所 51213 | 代理人: | 陳藝文 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 層次 直方圖 算法 能耗 在線 異常 檢測 方法 | ||
本發明公開了一種基于層次聚類和直方圖算法的能耗在線異常檢測方法,包括:S1.提取建立模型的歷史數據,包括能耗時間序列數據及特征數據;S2.進行數據清洗,濾除異常數據;S3.針對每一個特征數據進行劃分特征簇并分配樣本;S4.計算特征簇的簇樣本數量和簇中心,并將特征簇按照樣本數量從小到大排序;S5.判斷特征簇的數量是否大于N或其中某個簇的樣本數是否小于M,若是,則進入步驟S6,否則,進入步驟S7;S6.采用層次聚類算法對特征簇進行聚類,再計算新的特征簇的簇樣本數量和簇中心并返回步驟S5;S7.采用動態調整的箱線圖法計算每個特征簇的上下限閾值。本發明可實現對能耗數據的快速檢測模型生成和數據檢測。
技術領域
本發明涉及能耗異常檢測技術領域,特別涉及一種基于層次聚類和直方圖算法的能耗在線異常檢測方法。
背景技術
隨著工業4.0和能源互聯網的發展,能耗數據采集和能耗數據監控能夠幫助企業對能源的使用情況進行更智能化的管理。然而由于接入的設備和表計增多,數據的有效性和準確性變得尤為重要,同時,系統平臺端需要通過對歷史能耗數據的大數據分析,實現對每個通信模塊上傳的能耗數據的在線檢測,判斷能耗數據異常情況。因此,需要一個快速、穩定的能耗異常檢測算法。
發明內容
本發明的目的是克服上述背景技術中不足,提供一種基于層次聚類和直方圖算法的能耗在線異常檢測方法,可實現對能耗數據的快速檢測模型生成和數據檢測,能夠實現對采集異常和能耗異常分別進行處理,結合特征數據的直方圖計算,以及特征簇的層次聚類算法,對樣本進行聚類分簇,計算簇閾值,形成整個閾值模型。
為了達到上述的技術效果,本發明采取以下技術方案:
一種基于層次聚類和直方圖算法的能耗在線異常檢測方法,包括以下步驟:
S1.提取建立模型的歷史數據,包括能耗時間序列數據及特征數據;
S2.進行數據清洗,濾除異常數據;
S3.針對每一個特征數據進行劃分特征簇并分配樣本;
S4.計算特征簇的簇樣本數量和簇中心,并將特征簇按照樣本數量從小到大排序;
S5.判斷特征簇的數量是否大于N或其中某個簇的樣本數是否小于M,若是,則進入步驟S6,否則,進入步驟S7;
S6.采用層次聚類算法對特征簇進行聚類,再計算新的特征簇的簇樣本數量和簇中心并返回步驟S5;
S7.采用動態調整的箱線圖法計算每個特征簇的上下限閾值;
S8.重復步驟S3至S7,直至所有特征數據都完成閾值計算并形成特征的閾值集合。
進一步地,所述特征數據為含時間、氣候、生產的維度及場景的多維度、多場景識別所用的特征數據。
進一步地,所述步驟S2包括采用箱線圖法求取序列數據及特征數據的閾值,剔除不在閾值范圍內的數據點,本步驟主要為清洗通信異常等原因造成的錯報、漏報數據,目的是盡可能排除數據錯誤造成的影響,為更好的用能異常檢測建立基礎。
進一步地,所述步驟S3及S4包括:
設置最大聚類數N及類中的最小樣本數量M;
對于連續型特征數據,在連續特征取值范圍內,將其平均切割為a·N個直方圖,其中,每一個直方圖代表一個取值區間即代表一個特征的簇,a為切分的精度;
對于離散型特征,將每個互不相同的離散變量作為特征的簇;
將特征的簇集合記作C={c1,c2,…,ci},將能耗時間序列數據分配到與簇對應的集合中,并計算簇樣本的樣本數量和簇中心,其中,簇中心為簇中所有樣本數據的平均值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011329439.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物流包裝用膠帶割斷器
- 下一篇:全景泊車影像系統





