[發明專利]基于模糊大間隔最小球分類的恒星光譜離群數據挖掘方法有效
| 申請號: | 201610031687.4 | 申請日: | 2016-01-18 |
| 公開(公告)號: | CN105718941B | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 劉忠寶;趙文娟;楊秋翔 | 申請(專利權)人: | 中北大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 武漢華旭知識產權事務所42214 | 代理人: | 劉榮,江釗芳 |
| 地址: | 030051*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模糊 間隔 小球 分類 恒星 光譜 離群 數據 挖掘 方法 | ||
1.一種基于模糊大間隔最小球分類的恒星光譜離群數據挖掘方法,其特征在于包括以下步驟:
(1)對于斯隆望遠鏡采集回的天體光譜數據,根據每一個光譜數據的流量、峰寬和形狀將其離散化,得到待處理的數據集;假設樣本集由m1′個一般類樣本和m2′個離群類樣本構成,樣本總數n′=m1′+m2′,m2′<<m1′;由m1′個一般類樣本組成的集合中xi表示一般類樣本,1≤i≤m1′,yi表示類別標簽,yi=1表示該樣本屬于一般類;m2′個離群類樣本組成的集合中xj表示離群類樣本,m1′+1≤j≤n′,yj表示類別標簽,yj=-1,表示該樣本屬于離群類;從樣本集中隨機選取n個樣本構成訓練樣本集,使訓練樣本集中的一般類樣本和離群類樣本的數量分別為m1和m2,比例保持為m1/m2=m1′/m2′,樣本集中除其訓練樣本集以外的樣本組成測試樣本集;
(2)利用訓練樣本集構建基于模糊大間隔最小球分類模型,所述基于模糊大間隔最小球分類模型的最優化問題為:
其約束條件為:
s.t. ||φ(xi)-c||2≤R2+ξi 1≤i≤m1
||φ(xj)-c||2≥R2+ρ2-ξj m1+1≤j≤n
ξk≥0 1≤k≤n
其中,c和R分別為待求的最小球的中心和半徑;ρ2為待求的最小球邊界與離群類樣本之間的間隔;ξ=[ξ1,ξ2,...,ξn]T為待求的松弛因子;s=[s1,s2,...,sn]T為模糊因子,通過模糊隸屬度函數s(x)計算得到,sk=s(xk),1≤k≤n;v、v1和v2為正常數,通過網格搜索策略獲得;φ(xi)為樣本x的核化形式;所述模糊隸屬度函數采用基于距離的隸屬度函數:
其中,為訓練樣本集的類中心,即訓練樣本集中所有樣本的均值,r為訓練樣本集的類半徑且δ為正數,其取值范圍為(10-3,10-2),它保證s(xi)>0;
(3)利用Lagrangian乘子法將最優化問題轉化為QP對偶形式,求得最小球的球心c,根據球心c定義決策函數;
(4)利用決策函數對測試樣本集中的樣本進行類別判定,以判別測試樣本集中的樣本屬于一般類或離群類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中北大學,未經中北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610031687.4/1.html,轉載請聲明來源鉆瓜專利網。





