[發明專利]一種基于二分類的雙峰發射線數據搜尋方法有效
| 申請號: | 201910612231.0 | 申請日: | 2019-07-08 |
| 公開(公告)號: | CN110334659B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 屈彩霞;楊海峰;蔡江輝;張繼福;趙旭俊 | 申請(專利權)人: | 太原科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 太原高欣科創專利代理事務所(普通合伙) 14109 | 代理人: | 崔雪花;冷錦超 |
| 地址: | 030024 山*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分類 雙峰 射線 數據 搜尋 方法 | ||
1.一種基于二分類的雙峰發射線數據搜尋方法,其特征在于,包括以下三個階段:利用相關子空間方法進行特征提取;對特征子空間做出分類;對每一類相關子空間上的數據進行二分類處理;具體包括以下步驟:
第一階段:利用相關子空間方法進行特征提取;
a)數據預處理:將現有已證認的雙峰發射線數據作為相關子空間方法的預備數據集;對數據進行歸一化處理,去紅移得到訓練數據集,截取數據中波長為和之間的數據作為相關子空間中的最終訓練數據;
b)利用相關子空間方法進行特征提取:計算每個維度屬性上,每條數據的局部數據集LDS(O,Fi);O為訓練集中的數據,Fi為訓練集中的第i維屬性;利用KNN計算局部數據集在每個屬性維度上,計算每條數據的局部稀疏因子以及局部稀疏差異因子;
c)得到相關子空間RS并確定相關子空間個數和相關子空間的特征線;
d)對相關子空間做出特征描述:通過特征線的波長覆蓋范圍Wave、紅藍移之差RBS、線強比LSR三個特性來對特征線做具體描述;
第二階段:對相關子空間做出分類:利用頻繁模式挖掘和粗糙集理論將相關子空間分成若干組,具體包括以下步驟:
e)選擇驗證數據集:人眼挑選若干雙峰發射線數據,觀察相關子空間中的特征位置是否出現雙峰發射線;選擇用于挖掘的訓練集并設置最小支持度閾值s和最小置信度閾值c;
f)掃描數據集,得到頻繁項集,將頻繁模式中的子集組成規則A=B的形式,計算其支持度s(A=B)=P(A∪B)和置信度c(A=B)=P(A|B),并記錄下來;通過比較得到強關聯規則;
g)將選出的每個A=B形式的強關聯規則做變形處理,取A與B的并集A∪B作為該頻繁模式最終的關聯集合;根據粗糙集理論的上下近似逼近的方法,將關聯集合分別取并集和交集作為上近似與下近似的集合;將上下近似分別作為相關子空間的分類結果,得到相關子空間的子集分類;
第三階段:對每一類相關子空間上的數據進行分類處理;
h)選擇訓練集的正樣本和負樣本,計算相關子空間的特征概率:計算相關子空間中的每個特征出現的頻率Pi作為該特征的概率值;
i)按照步驟a)的方法進行數據預處理,設置懲罰因子C,迭代最大次數I;選擇核函數K,求核值矩陣,初始化拉格朗日因子矩陣α;
j)選擇測試數據集:從LAMOST DR5數據中隨機選取10000條數據作為驗證測試集;人眼檢查測試數據集中的正樣本,將其標記;利用測試數據集的分類結果,記錄運行時間并計算準確率、召回率以及約減率。
2.根據權利要求1所述的一種基于二分類的雙峰發射線數據搜尋方法,其特征在于,步驟a包括以下具體步驟:
步驟1:將目前經過研究證認的雙峰發射線數據作為相關子空間方法的預備數據集;
步驟2:數據歸一化:為保證數據分布在一個尺度上,需將數據做歸一化處理,使用的方法為flux/std(flux),其中flux為讀出的數據,std(flux)為數據集的標準差;
步驟3:去紅移:去紅移將數據固定在靜止波長下;
步驟4:選擇紅移小于0.3的數據作為相關子空間需要的訓練集數據;
步驟5:截取波長段:選取數據中波長為和之間的數據作為相關子空間中的最終訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原科技大學,未經太原科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910612231.0/1.html,轉載請聲明來源鉆瓜專利網。





