[發明專利]噪點剔除方法有效
| 申請號: | 201410150573.2 | 申請日: | 2014-04-15 |
| 公開(公告)號: | CN103942615B | 公開(公告)日: | 2018-03-27 |
| 發明(設計)人: | 林強;黃劍文;姜唯;周開東;彭澤武;王甜;曾初陽;羅歡;李娜;蔡利勉 | 申請(專利權)人: | 廣東電網有限責任公司信息中心;廣州博納信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 李迪 |
| 地址: | 510080 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 剔除 方法 | ||
技術領域
本發明涉及IT系統的數據處理領域,尤其涉及一種噪點剔除方法。
背景技術
在企業IT系統日常運維中,通常需要對業務系統生產運行產生的海量的歷史數據進行分析,提取其趨勢特征,以便對后階段的結果進行預測,提前預知可能的風險、故障,或提前做好資源規劃。
而通常由于設備軟硬件異常、網絡延時、故障或其他非常規操作等會導致原始數據樣本中存在一些“噪點”,若不對這些噪點進行剔除,則會直接影響數據的分析,特征的提取以及后續的趨勢預測,導致分析與預測的不準確性,無法真實反應業務系統的發展趨勢。
而基于目前搜索到的資料,噪點剔除方法,通常應用于圖像、聲音處理等專業領域,無法解決IT行業的數據樣本的噪點剔除問題。另外,傳統的基于方差的噪點剔除方法,一般無法靈活地控制噪點剔除的粒度。
發明內容
本發明所要解決的技術問題是IT系統的噪點剔除。
為此目的,本發明提出了一種剔除差異較大的離群點,并且可以通過動態控制滑窗的大小,達到從不同粒度剔除噪點的目的的噪點剔除方法。
一種噪點剔除方法,包括:
S1、獲取數據樣本;
S2、設定滑窗大小;
S3、剔除每一滑窗中的噪點數據;
S4、取各所述滑窗內剔除噪點數據后的剩余數據樣本的平均值為該滑窗的滑窗代表值;
S5、獲取各所述滑窗代表值作為參考數據樣本;
S6、確定是否再次設定滑窗大小,
若滑窗大小不大于預設的上限值,再次設定滑窗大小,重復步驟S2-S5,獲取不同大小的滑窗對應的所述滑窗代表值,
若滑窗大小達到預設的上限值,取各所述參考數據樣本的集合作為進一步數據分析的樣本;
S7、將多組不同滑窗大小下獲得的參考數據樣本與理論基準樣本做比對,選擇誤差最小的參考數據樣本作為最終的樣本;
其中,所述理論基準樣本為基于歷史數據學習得出的最優理論樣本。
作為一種優選,步驟S2中可將滑窗大小設置為一大于等于1的數值作為滑窗的初始值,在步驟S6中,若滑窗大小不大于預設的上限值每次將滑窗大小增大一固定值,重復步驟S2-S5。
優選的,步驟S1包括:S11、獲取所述數據樣本的數值范圍。
優選的,步驟S3中剔除的為數值在所述數據樣本的數值范圍中排列于前一部分的數據樣本。
優選的,步驟S3中剔除的為數值在所述數據樣本的數值范圍中排列于前四分之一的數據樣本。
優選的,步驟S3中剔除的為數值在所述數據樣本的數值范圍中排列于后一部分的數據樣本。
優選的,步驟S3中剔除的為數值在所述數據樣本的數值范圍中排列于后四分之一的數據樣本。
采用本發明所公開的噪點剔除方法通過設定不同大小的滑窗對獲取的數據樣本進行劃分,并以各滑窗為單位對海量的多維數據集進行噪點剔除,最終以不同大小的各滑窗剔除噪點后的對應滑窗代表值作為進一步的數據分析的樣本,能夠靈活控制和提升數據樣本點的質量,為基于歷史數據進行未來趨勢預測提供了更高的準確度。
附圖說明
通過參考附圖會更加清楚的理解本發明的特征和優點,附圖是示意性的而不應理解為對本發明進行任何限制,在附圖中:
圖1示出了本發明的流程圖。
圖2示出了滑窗定義的輔助說明圖。
具體實施方式
下面將結合附圖對本發明的實施例進行詳細描述。
如圖1所示,為本發明的噪點剔除方法,包括:
S1、獲取數據樣本:
S11、對從IT系統監控到的數據集進行掃描并將該數據集作為數據樣本,假設數據樣本點總數為m,獲取該數據樣本的m個數據的取值范圍[a,b]。
S2、設定滑窗大小:
設定滑窗大小n(即每個滑窗內含有n個數據樣本點),n取值范圍為[1,m],則原始數據集被劃分成k個滑窗(即k組),其中k=[m/n],在本實施例中,作為一種優選,設置滑窗大小為4。
S3、剔除每一滑窗中的噪點數據:
對每一個滑窗內的數據,可以按照一定的方法進行噪點剔除,具體的剔除方法可以不同,比如:可以剔除最大點最小點;可以剔除方差最大的點;可以將滑窗內的數據取值控制在一定的范圍內等。根據大數定律和中心極限定律,運維監控數據可以經過一定步驟的數學變化變成為標準正態分布,因而,這些數據在原本形態中以一個很大的概率分布在一個相對較小的區間內。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司信息中心;廣州博納信息技術有限公司,未經廣東電網有限責任公司信息中心;廣州博納信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410150573.2/2.html,轉載請聲明來源鉆瓜專利網。





