[發明專利]一種生理數據離群檢測方法及裝置在審
| 申請號: | 201310687125.1 | 申請日: | 2013-12-13 |
| 公開(公告)號: | CN104714964A | 公開(公告)日: | 2015-06-17 |
| 發明(設計)人: | 壽文卉 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/22 |
| 代理公司: | 北京鑫媛睿博知識產權代理有限公司 11297 | 代理人: | 龔家驊 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 生理 數據 離群 檢測 方法 裝置 | ||
技術領域
本發明涉及移動健康管理系統中數據處理技術領域,尤其涉及一種生理數據離群檢測方法及裝置。
背景技術
離群檢測是數據挖掘的一種方法,著重于挖掘數據中相對孤立的異常數據,可以應用于各種領域中。常用的離群檢測方法主要有四類:基于統計分布的方法、基于距離的方法、基于密度的方法和基于偏差的方法。其中,基于統計分布的方法通常只針對單個屬性,不能挖掘多維數據中的離群點,并且需要事先了解數據的分布特征;基于距離的方法能夠解決多維空間中的離群檢測問題,不需要已知數據的分布情況,并且能夠避免大量的計算;基于密度的方法以距離和密度兩個概念為基礎,同時考慮樣本之間的距離和給定鄰域內樣本的個數,通過定量評估數據的離群程度來檢測局部離群點和全局離群點;基于偏差的離群檢測方法不再使用統計方法和距離測度,它關心的是樣本點是否偏離于數據集的特征,但仍停留在理論研究上。下面就上述幾種離群檢測方法做一些具體的介紹:
現有技術中記載了一種數據中異常點的檢測方法,該方法應用于工業生產技術領域中,是一種基于統計分布的離群檢測方法,并且只針對服從正態分布的單個屬性。該方法包括以下步驟:計算最大/次大數據值和最小/次小數據值之間的差值統計量,并將其與格魯布斯(或肖維特)檢測臨界值相比較,最終確定最大數據值、最小數據值是否是異常點;
現有技術中記載了一種檢測數據中異常點的去除方法,該方法應用于半導體制造技術領域中,是一種基于統計分布的離群檢測方法,并且只針對服從正態分布的單個屬性。該方法包括以下步驟:設定置信度及預計異常點數目,采用Tietjen&Moore方法計算第一平方和、第二平方和和偏離值,并將偏離值與臨界值相比較,最終確定實際異常點數目和異常點。
現有技術中記載了一種識別離群交通數據的方法,該方法應用于智能交通系統中智能信息處理技術領域中,是一種基于密度的離群檢測方法,能夠實現多維空間中全局離群點和局部離群點的檢測。該方法包括以下步驟:計算數據的平均局部離群因子,使用兩個準則之一判斷離群數據(平均局部離群因子最高的m個數據或者平均局部離群因子大于給定閾值的數據),最終刪除或修正離群數據,或者分析離群數據所包含的隱藏信息。
然而,對于上述幾種離群檢測的方法,在實現時,會相應的帶來不同的問題:第一種,僅適用于服從正態分布的單個屬性,只能夠判斷最大數據值和最小數據值是否是異常點,不能解決數據分布未知、具有多個維度、異常點數目可能大于2的人體生理數據的離群檢測問題;
第二種,僅適用于服從正態分布的單個屬性,不能解決數據分布未知、具有多個維度的人體生理數據的離群檢測問題;
第三種,僅適用于相互獨立的多個維度,不能解決不同維度量綱存在不一致、不同維度之間存在相關性的人體生理數據的離群檢測問題。
發明內容
本發明實施例的目的在于提供一種生理數據離群檢測方法及裝置,通過將穩健馬氏距離與k近鄰離群檢測方法的結合,實現了對于生理數據的離群檢測,提高了離群檢測的效率。
為了達到上述目的,本發明實施例提供了一種生理數據離群檢測方法,包括:
確定top-q序列,所述top-q序列包含有數據集合中的q個樣本的k距離值,且所述k距離值按照由大到小排列;
選取數據集合中的第q+1個樣本,執行步驟A;
步驟A,確定當前樣本的距離序列中是否包含有k個距離值;當包含時,執行步驟B,當不包含時,執行步驟E;
步驟B,選取第k小距離值,判斷該第k小距離值與所述top-q序列中最小的k距離值的關系;
步驟C,當該第k小距離值小于所述top-q序列中最小的k距離值時,確定該第k小距離值所屬的樣本不是離群點;選取下一個樣本,重復執行步驟A;
步驟D,當該第k個距離值不小于所述top-q序列中最小的k距離值時,確定當前樣本與剩余樣本中的下一樣本的距離值;執行步驟B;
當當前樣本已經與剩余的所有樣本確定完距離值,且當前第k小距離值不小于所述top-q序列中最小的k距離值時,將該第k小距離值替換所述top-q序列中最小的k距離值,并對所述top-q序列進行由大到小排列;選取下一個樣本,重復執行步驟A;
步驟E,利用所述協方差確定當前樣本到剩余樣本中的其它樣本的距離,直到當前樣本的距離序列中包含有k個距離值;之后執行步驟B;
重復上述步驟,直至遍歷完所有樣本,得到遍歷后的top-q序列,確定所述遍歷后的top-q序列中的q個樣本為離群點。
優選地,所述確定top-q序列,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司;,未經中國移動通信集團公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310687125.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:對網站頁面進行國際化的方法和裝置
- 下一篇:一種動態定制報表的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





