[發明專利]基于GMDH神經元網絡的離群點檢測方法及裝置在審
| 申請號: | 201810257847.6 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108229592A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 肖進;雷琴 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 成都厚為專利代理事務所(普通合伙) 51255 | 代理人: | 夏柯雙 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練集 線性回歸模型 神經元網絡 樣本 關鍵特征 離群點檢測 子集 距離檢測 數據維度 自適應 自組織 冗余 構建 建模 映射 剔除 重復 | ||
本發明公開了一種基于GMDH神經元網絡的離群點檢測方法及裝置,其中方法包括:用n個樣本構建第一訓練集L;利用GMDH神經元網絡找出第一訓練集L的關鍵特征子集;根據所述關鍵特征子集映射得到第二訓練集L',并根據第二訓練集L'建立第一線性回歸模型;將第二訓練集L'中的樣本i剔除后建立第二線性回歸模型,并根據第一線性回歸模型和第二線性回歸模型計算樣本i的庫克距離Di;重復步驟S4直到訓練集L'中每個樣本的庫克距離Di都計算得出,然后確定離群點:若Di>4/n,(i=1,2,…,n),則樣本i為離群點。本發明通過使用GMDH神經元網絡自適應建模,自組織地選擇一部分關鍵特征,從而很好地消除了不相關或冗余的特征,減少數據維度,克服了庫克距離檢測方法的不足。
技術領域
本發明涉及離群點檢測技術領域,特別是涉及一種基于GMDH神經元網絡的離群點檢測方法及裝置。
背景技術
近年來,分類問題一直是數據挖掘領域的重要研究問題之一。它通過已知類別訓練集的建模分析,從中發現分類規則,以此預測新的樣本數據的類別。分類算法的應用領域非常廣泛,現實中的很多問題,如網絡文本分類、人臉識別、語音識別、醫療疾病診斷、信用風險評估以及客戶流失預測等都屬于分類問題。在現實社會中,用于分類的數據集中通常含有一部分與其他數據有著顯著區別的數據,即離群數據。到目前為止,離群點還沒有一個被普遍采納的定義,Hawkins對離群點的定義在一定意義上揭示了離群點的本質:離群點與其他點如此不同,以至于讓人懷疑它們是由另外一個不同的機制產生的。這些背離正常的數據如果不剔除,在進行分類訓練的時候,可能會嚴重影響訓練出的模型的分類性能。因此,在分類問題中進行離群點檢測有著重要的意義。
對于離群點的檢測,國內外學者提出了許多方法。這些方法大致可以分為以下五類:
(1)基于統計的方法。這種方法的主要思想時假定數據集服從某種分布或概率模型,通過不一致檢驗把哪些嚴重偏離分布曲線的記錄視為離群點;其中最具代表性的方法是Cook’s distance值。
(2)基于距離的方法。這類方法最早由Knorr等提出,該方法對離群點的定義為:如果數據集中至少有pct個對象與對象o的距離大于D,則對象o是一個基于距離的關于參數pct和D的離群點,即DB(pct,D)離群點。
(3)基于密度的方法。Breunig等提出了局部離群點概念和基于密度的離群點定義,用局部離群系數(Local Outlier Factor,LOF)來表示一個對象的局部離群程度。
(4)基于聚類的方法。該類方法將離群點定義為不屬于任何簇的對象。王欣提出了基于聚類和距離的離群點檢測算法,該算法采用了剪枝,減少了離群點檢測時數據點之間距離計算的次數。
(5)基于分類的方法。Hawkins等提出了一個基于神經網絡的離群點檢測方法,根據訓練好的神經網絡,每個樣本可得到一個重建誤差,從而以此來度量樣本的離群程度。
上述幾種離群點的檢測方法各有優劣:基于距離或密度的離群點檢測方法的時間復雜度較高;基于聚類的方法的主要目標是發現簇,而不是離群點,因此對離群點的挖掘效率較低;基于分類的離群點檢測方法的有效性嚴重依賴于所使用的分類算法;基于統計的方法因為其檢測性能穩定、時間復雜度較低且容易實現成為學術界最常用的方法,Cook’sdistance是統計方法中普遍使用的評價離群點的指標。然而,Cook’s distance方法也有不足,如在低維的數據集上,應用Cook’s distance檢測離群點有很好的檢測性能,但是在高維數據集上往往不能取得令人滿意的效果,而且過多的數據特征不僅會使檢測的計算時間大大增加,還會降低檢測效果。然而,在現實的分類問題中,數據集往往為高維數據,因此Cook’s distance方法面臨挑戰。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810257847.6/2.html,轉載請聲明來源鉆瓜專利網。





