[發(fā)明專利]一種基于二分類的雙峰發(fā)射線數(shù)據(jù)搜尋方法有效
| 申請?zhí)枺?/td> | 201910612231.0 | 申請日: | 2019-07-08 |
| 公開(公告)號(hào): | CN110334659B | 公開(公告)日: | 2022-05-10 |
| 發(fā)明(設(shè)計(jì))人: | 屈彩霞;楊海峰;蔡江輝;張繼福;趙旭俊 | 申請(專利權(quán))人: | 太原科技大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62 |
| 代理公司: | 太原高欣科創(chuàng)專利代理事務(wù)所(普通合伙) 14109 | 代理人: | 崔雪花;冷錦超 |
| 地址: | 030024 山*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分類 雙峰 射線 數(shù)據(jù) 搜尋 方法 | ||
本發(fā)明公開了一種基于二分類的雙峰發(fā)射線搜尋方法,首先利用相關(guān)子空間方法對雙峰發(fā)射線數(shù)據(jù)做出特征提取,通過不同大小數(shù)據(jù)集,取不同參數(shù)時(shí)對相關(guān)子空間的個(gè)數(shù)和特征線分析,得出相關(guān)子空間的多條特征線;其次,根據(jù)相關(guān)子空間的特征線之間不同強(qiáng)弱的關(guān)聯(lián)性,利用頻繁模式挖掘和粗糙集理論將相關(guān)子空間分類;然后,利用支持向量機(jī)的方法對選出的訓(xùn)練集進(jìn)行訓(xùn)練,從而構(gòu)造出雙峰發(fā)射線數(shù)據(jù)的分類模型;本發(fā)明的方法對于雙峰發(fā)射線數(shù)據(jù)的搜尋具有可行性和有效性;在正樣本比例極小的情況下,與其它方法相比,該方法可以將正樣本的特征有效學(xué)習(xí),從而構(gòu)造出可用于雙峰發(fā)射線數(shù)據(jù)分類的模型。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體為一種數(shù)據(jù)搜索的方法,尤其涉及一種基于二分類的雙峰發(fā)射線數(shù)據(jù)搜尋方法。
背景技術(shù)
在高維海量的大數(shù)據(jù)背景下,傳統(tǒng)的數(shù)據(jù)挖掘方法已經(jīng)不能滿足當(dāng)前的數(shù)據(jù)需求。對數(shù)據(jù)所有屬性進(jìn)行處理的方法大大降低了計(jì)算效率,提高計(jì)算成本,維度災(zāi)難一直是高維數(shù)據(jù)中亟需解決的問題。并不是所有的屬性都能夠投入計(jì)算,我們需要利用有效的方法提取出有意義的屬性,在這些提取出的屬性上對數(shù)據(jù)進(jìn)行處理降低了數(shù)據(jù)維度,同時(shí)也提高了數(shù)據(jù)處理方法的效率。
雙峰發(fā)射線數(shù)據(jù)在天體光譜中所占比例極小,針對這種正負(fù)樣本極不平衡的數(shù)據(jù),有一些新的方法來挖掘其中的稀有數(shù)據(jù),例如模式識(shí)別,離群點(diǎn)檢測,分類等。這些方法在越來越廣泛的領(lǐng)域中有更好的優(yōu)勢和性能,但是對于天文學(xué)特定背景的光譜數(shù)據(jù)集,由于各種獨(dú)特的數(shù)據(jù)特征,到目前為止還沒有很好的處理方法。因此考慮這些特性,針對特殊數(shù)據(jù)開發(fā)有效方法將具有重要意義,雙峰發(fā)射線搜索方法可以歸類為二進(jìn)制分類問題,SVM(支持向量機(jī))是一種用于小樣本和高維度樣本的有用的監(jiān)督學(xué)習(xí)方法。在正樣本和負(fù)樣本的比例極不平衡的條件下,由小樣本訓(xùn)練的支持向量可以特別用作從大數(shù)據(jù)集中搜索稀有對象的閾值。
在對雙峰發(fā)射線數(shù)據(jù)進(jìn)行研究的過程中,存在以下問題:1.雙峰發(fā)射線特征多樣性,該特征的位置不確定,特征輪廓多變,導(dǎo)致對該特征的描述難度加大;2.數(shù)據(jù)質(zhì)量較低,具有雙峰發(fā)射線的數(shù)據(jù)均來自河外天體的觀測,其中有較多噪聲和其他因素的干擾;3.當(dāng)前的針對雙峰發(fā)射線數(shù)據(jù)的研究,沒有形成很好的識(shí)別模型。
發(fā)明內(nèi)容
本發(fā)明克服現(xiàn)有技術(shù)存在的不足,提供一種基于二分類的雙峰發(fā)射線數(shù)據(jù)搜尋方法,目的是降低算法的時(shí)間復(fù)雜度,提高搜尋雙峰發(fā)射線數(shù)據(jù)的準(zhǔn)確率、召回率和約減率。
本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的。
一種基于二分類的雙峰發(fā)射線數(shù)據(jù)搜尋方法,其特征在于,包括以下三個(gè)階段:利用相關(guān)子空間方法進(jìn)行特征提??;對特征子空間做出分類;對每一類相關(guān)子空間上的數(shù)據(jù)進(jìn)行二分類處理;具體包括以下步驟。
第一階段:利用相關(guān)子空間方法進(jìn)行特征提取。
在該階段,目的是在所有的屬性維度中提取出有意義的屬性作為之后研究的屬性。相關(guān)子空間方法能夠從一批屬性中發(fā)現(xiàn)與雙峰發(fā)射線特征相關(guān)的屬性,從而將這些屬性歸為特征子空間中。具體的步驟如下:
a)數(shù)據(jù)預(yù)處理:將現(xiàn)有已證認(rèn)的雙峰發(fā)射線數(shù)據(jù)作為相關(guān)子空間方法的預(yù)備數(shù)據(jù)集;對數(shù)據(jù)進(jìn)行歸一化處理,去紅移得到訓(xùn)練數(shù)據(jù)集,截取數(shù)據(jù)中波長為和之間的數(shù)據(jù)作為相關(guān)子空間中的最終訓(xùn)練數(shù)據(jù)。
b)利用相關(guān)子空間方法進(jìn)行特征提取:計(jì)算每個(gè)維度屬性上,每條數(shù)據(jù)的局部數(shù)據(jù)集LDS(O,F(xiàn)i);O為訓(xùn)練集中的數(shù)據(jù),F(xiàn)i為訓(xùn)練集中的第i維屬性;利用KNN計(jì)算局部數(shù)據(jù)集、在每個(gè)屬性維度上,計(jì)算每條數(shù)據(jù)的局部稀疏因子以及局部稀疏差異因子。
c)得到相關(guān)子空間RS并確定相關(guān)子空間個(gè)數(shù)和相關(guān)子空間的特征線。
d)對相關(guān)子空間做出特征描述:通過特征線的波長覆蓋范圍Wave、紅藍(lán)移之差RBS、線強(qiáng)比LSR三個(gè)特性來對特征線做具體描述。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于太原科技大學(xué),未經(jīng)太原科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910612231.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





