[發(fā)明專利]基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法有效
| 申請?zhí)枺?/td> | 201610031687.4 | 申請日: | 2016-01-18 |
| 公開(公告)號: | CN105718941B | 公開(公告)日: | 2017-06-27 |
| 發(fā)明(設(shè)計)人: | 劉忠寶;趙文娟;楊秋翔 | 申請(專利權(quán))人: | 中北大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 武漢華旭知識產(chǎn)權(quán)事務(wù)所42214 | 代理人: | 劉榮,江釗芳 |
| 地址: | 030051*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模糊 間隔 小球 分類 恒星 光譜 離群 數(shù)據(jù) 挖掘 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,屬于天體光譜分類領(lǐng)域。
背景技術(shù)
大型天文望遠鏡采集到的海量天體數(shù)據(jù)使天文學(xué)家擺脫了“數(shù)據(jù)貧乏”的窘境,但隨之而來的問題是如何對這些數(shù)據(jù)進行有效分析和處理。由于人類對宇宙的認識還較為有限,因此,大型天文望遠鏡巡天的任務(wù)之一就是發(fā)現(xiàn)一些新的、特殊的天體。特殊天體的發(fā)現(xiàn)對于人類了解宇宙演變規(guī)律具有重要意義。目前,常見特殊天體發(fā)現(xiàn)方法的基本思想是利用智能分類算法對離群數(shù)據(jù)進行處理和分析。離群數(shù)據(jù)是指不滿足其他數(shù)據(jù)的一般規(guī)律或分布性狀,與已有數(shù)據(jù)不一致的數(shù)據(jù)。與一般數(shù)據(jù)相比,離群數(shù)據(jù)包含更重要的信息,深入挖掘這部分數(shù)據(jù)對于特征天體發(fā)現(xiàn)至關(guān)重要。
近年來天體光譜數(shù)據(jù)分類方法不斷涌現(xiàn),主要包括:Autoclass基于貝葉斯理論并采用非監(jiān)督學(xué)習(xí)算法;Starck將小波變換引入光譜分析;Gulati等采用兩層BP網(wǎng)絡(luò)實現(xiàn)恒星光譜分類;Bailer-Jones利用多層感知神經(jīng)網(wǎng)絡(luò)和主元分析進行恒星光譜自動分類;覃冬梅等利用主元分析和最近鄰分類器實現(xiàn)恒星光譜自動分類;劉蓉等利用小波特征對光譜星系進行分類;楊金福等提出基于核技巧與覆蓋算法的光譜自動分類方法;許馨等利用核技巧將非線性問題轉(zhuǎn)化為高維線性問題并利用線性判別分析算法進行光譜分類;趙梅芳等提出基于自適應(yīng)增強的光譜分類方法;孫士衛(wèi)等提出基于數(shù)據(jù)倉庫的星系光譜分類方法;張懷福等利用小波包和支持向量機技術(shù)對活動天體和非天體光譜分類問題展開研究;張繼福等提出基于約束概念格的恒星光譜數(shù)據(jù)自動分類方法;劉蓉等提出基于貝葉斯和主元分析的光譜分類方法;李鄉(xiāng)儒等提出基于最近鄰算法的光譜分類方法;Mahdi利用自組織映射算法進行光譜分類;Navarro等利用人工神經(jīng)網(wǎng)絡(luò)進行光譜分類;劉忠寶等提出基于流形判別分析和支持向量機的恒星光譜分類方法。
上述分類方法均能較好地完成天體光譜分類任務(wù),但它們均對離群數(shù)據(jù)不敏感,分類性能甚至受離群點影響較大,因而無法完成特殊天體發(fā)現(xiàn)任務(wù)。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,該方法基于模糊最大間隔最小球模型(Fuzzy Large Margin and Minimum Ball Classification Model,F(xiàn)LM-MBC),該模型對離群點較為敏感,在一定程度上克服了已有分類方法在特殊天體發(fā)現(xiàn)方面的不足,為特殊天體發(fā)現(xiàn)研究提供了新的思路。在該模型中,模糊技術(shù)的引入保證將樣本區(qū)別對待,這樣便減少噪聲點和奇異點對分類結(jié)果的影響。
本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是:提供了一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,包括以下步驟:
(1)對于斯隆望遠鏡采集回的天體光譜數(shù)據(jù),根據(jù)每一個光譜數(shù)據(jù)的流量、峰寬和形狀將其離散化,得到待處理的數(shù)據(jù)集;假設(shè)所述樣本集由m1′個一般類樣本和m2′個離群類樣本構(gòu)成,樣本總數(shù)n′=m1′+m2′,m2′<<m1′;由m1′個一般類樣本組成的集合中xi表示一般類樣本,1≤i≤m1′,yi表示類別標簽,yi=1表示該樣本屬于一般類;m2′個離群類樣本組成的集合中xj表示離群類樣本,m1′+1≤j≤n′,yj表示類別標簽,yj=-1,表示該樣本屬于離群類;從樣本集中隨機選取n個樣本構(gòu)成訓(xùn)練樣本集,使訓(xùn)練樣本集中的一般類樣本和離群類樣本的數(shù)量分別為m1和m2,比例保持為m1/m2=m1′/m2′,樣本集中除其訓(xùn)練樣本集以外的樣本組成測試樣本集;
(2)利用訓(xùn)練樣本集構(gòu)建基于模糊大間隔最小球分類模型,所述基于模糊大間隔最小球分類模型的最優(yōu)化問題為:
其約束條件為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中北大學(xué),未經(jīng)中北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610031687.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





