[發明專利]大動態范圍大離散單區域多點精準確定異常值的方法有效
| 申請號: | 201911307015.1 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111121946B | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 孫小菡;徐宛麗;吳寶鋒;劉華偉 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G01H9/00 | 分類號: | G01H9/00;H04B10/079 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 施昊 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 范圍 離散 區域 多點 精準 確定 異常 方法 | ||
本發明公開了大動態范圍大離散單區域多點精準確定異常值的方法。采集大動態范圍大離散單區域樣本,提取單區域樣本中各點的標準差和離散差,并對標準差和離散差進行閾值處理;通過標準差均值前向平移操作處理單區域樣本中各點的標準差;計算單區域樣本內所有點的置信率;將所有點置信率分別與置信率閾值比較,判斷出樣本中的異常點,實現大動態范圍大離散單區域多點精準確定異常數值。本發明克服了數據量大和異常不明顯的難題,能夠快速精準地確定異常數值。
技術領域
本發明屬于計算機數據處理技術領域,特別涉及了一種大動態范圍大離散數據的異常值確定方法。
背景技術
在計算機建模時,清理數據樣本非常重要,可以確保觀察結果充分代表問題。有時,數據集可能包含超出預期范圍之外的極端值,這些值通常被稱為異常值。通過理解甚至去除這些異常值,能夠改進建模和模型技能。
目前提出的確定數據異常值的方法包括基于距離的方法、基于偏差的方法和基于密度的方法等。這些方法雖然可以找出異常值,但是方法較為繁瑣,需要大量的機器學習,尤其是當動態范圍較大,異常數據不明顯時,通過現有的方法很難查找出來。
例如,在分布式光纖振動傳感定位技術中,誤報率是突出的問題,當系統發生誤報時,系統測出的振動點與實際振動點相差幾百米。尤其是當傳輸距離較遠時,因為背向散射信號較弱,信號和背景噪聲無法區分開來,造成振動定位的誤報,因此亟需一種精準定位振動點的方法。
發明內容
為了解決上述背景技術提出的技術問題,本發明提出了大動態范圍大離散單區域多點精準確定異常值的方法,克服了數據量大和異常不明顯的難題,能夠快速精準地確定異常數值。
為了實現上述技術目的,本發明的技術方案為:
大動態范圍大離散單區域多點精準確定異常值的方法,包括以下步驟:
(1)采集大動態范圍大離散單區域樣本,提取單區域樣本中各點的標準差和離散差,并對標準差和離散差進行閾值處理;
(2)通過標準差均值前向平移操作處理單區域樣本中各點的標準差;
(3)計算單區域樣本內所有點的置信率;
(4)將所有點置信率分別與置信率閾值比較,判斷出樣本中的異常點,實現大動態范圍大離散單區域多點精準確定異常數值。
進一步地,在步驟(1)中,一次采集N個單區域樣本,計算各點的平均值標準差σi和離散差dij:
其中,xij表示第j個樣本中第i個點值,i=1,2,…,M,M為采樣點數目,j=1,2,…,N。
進一步地,在步驟(1)中,對標準差和離散差進行閾值處理的方法如下:
設定閾值t1和t2;
當第i個采樣點的標準差σi滿足σi≤t1時,將σi設置為t1;
當第j個樣本的第i個采樣點的離散差dij滿足dij≤t2時,將dij設置為0。
進一步地,步驟(2)的過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911307015.1/2.html,轉載請聲明來源鉆瓜專利網。





