[發(fā)明專利]一種大數(shù)據(jù)的二次特征選擇方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201810598902.8 | 申請(qǐng)日: | 2018-06-12 |
| 公開(公告)號(hào): | CN108829816A | 公開(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 王曉宇 | 申請(qǐng)(專利權(quán))人: | 鄭州云海信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 濟(jì)南誠(chéng)智商標(biāo)專利事務(wù)所有限公司 37105 | 代理人: | 王汝銀 |
| 地址: | 450018 河南省鄭州市*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 冗余特征 算法 主成分分析法 搜索算法 次特征 大數(shù)據(jù) 數(shù)據(jù)集 權(quán)重 去除 加權(quán) 樣本 處理模塊 分離模塊 算法模塊 通用度 高維 | ||
本發(fā)明提供了種大數(shù)據(jù)的二次特征選擇方法及裝置,所述的方法包括:S1:將數(shù)據(jù)集分離;S2:利用ReliefF算法得到樣本的每個(gè)特征所對(duì)應(yīng)的權(quán)重;S3:利用主成分分析法對(duì)各個(gè)特征加權(quán);S4:利用搜索算法去除冗余特征。所述的裝置包括:分離模塊,用來將數(shù)據(jù)集分離;ReliefF算法模塊,利用ReliefF算法得到樣本的每個(gè)特征所對(duì)應(yīng)的權(quán)重;KCPA模塊,利用主成分分析法對(duì)各個(gè)特征加權(quán);處理模塊,利用搜索算法去除冗余特征。該發(fā)明能夠處理高維度、包含無關(guān)和冗余特征的數(shù)據(jù),提高了算法通用度和系統(tǒng)的精確度。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更具體地說,涉及一種大數(shù)據(jù)的二次特征選擇方法及裝置。
背景技術(shù)
科技的迅猛發(fā)展使得我們獲得信息量爆炸式增長(zhǎng),如何從這些信息中的得到有價(jià)值的數(shù)據(jù),模式分類等人工智能的科學(xué)應(yīng)運(yùn)而生并且逐漸成為研究熱點(diǎn)之一。
模式分類系統(tǒng)為了最大獲得某些事物的特征等相關(guān)的信息,將通過以下四個(gè)步驟,分別是獲取某事物的特征數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再接著通過特征選擇,最后是對(duì)特征數(shù)據(jù)進(jìn)行特征評(píng)估。經(jīng)過這四個(gè)步驟后將能獲取某具體事物的正確分類。
然而數(shù)據(jù)的維度越來越高將會(huì)造成維數(shù)災(zāi)難,無關(guān)和冗余特征較多等特點(diǎn)的出現(xiàn)迫切使得研究人員需要在傳統(tǒng)的算法上進(jìn)行優(yōu)化和創(chuàng)新,使得新的算法在通用性上更強(qiáng)并且在運(yùn)行效率上更高,而對(duì)于模式分類系統(tǒng)中非常的重要的特征選擇環(huán)節(jié)是我們得到優(yōu)良分類器的重要前提。
發(fā)明內(nèi)容
針對(duì)以上缺點(diǎn),本發(fā)明提出了一種大數(shù)據(jù)的二次特征選擇方法及裝置,能夠處理高維度、包含無關(guān)和冗余特征的數(shù)據(jù),提高了算法通用度和系統(tǒng)的精確度。
本發(fā)明實(shí)施例提供了一種大數(shù)據(jù)的二次特征選擇方法,所述的方法包括:
S1:將數(shù)據(jù)集分離;
S2:利用ReliefF算法得到樣本的每個(gè)特征所對(duì)應(yīng)的權(quán)重;
S3:利用主成分分析法對(duì)各個(gè)特征加權(quán);
S4:利用搜索算法去除冗余特征。
進(jìn)一步的,步驟S1中,將數(shù)據(jù)集分離后,不同類樣本之間的距離增大。
進(jìn)一步的,步驟S2的具體實(shí)現(xiàn)過程為:
選取樣本R的某個(gè)特征,在這個(gè)特征上分別計(jì)算樣本R和最近的相鄰的同類樣本H的距離D(RH),以及樣本R和最近的相鄰的不樣本M的距離D(RM);
判斷D(RH)和D(RM)的大小,若是D(RH)小于D(RM),則給這個(gè)特征設(shè)置的權(quán)重要相應(yīng)的增大;若是D(RH)大于D(RM),則給這個(gè)特征設(shè)置的權(quán)重要相應(yīng)的減少;
對(duì)于上述的過程要反復(fù)m次,最后通過計(jì)算得到每個(gè)特征的權(quán)重。
進(jìn)一步的,步驟S3的實(shí)現(xiàn)原理為:使用基于核函數(shù)的主成分分析法將非線性數(shù)據(jù)轉(zhuǎn)換為線性數(shù)據(jù),然后再運(yùn)用主成分分析法求出最主要貢獻(xiàn)的特征。
進(jìn)一步的,步驟S3的具體實(shí)現(xiàn)過程為:
1)輸入數(shù)據(jù)S={x1,x2,…,xl},投影后數(shù)據(jù)的維度是k,x代表每一條特征的矩陣,L代表省略的特征對(duì)應(yīng)的矩陣,l代表特征的個(gè)數(shù);
2)計(jì)算核矩陣:K=(kij)l×l,kij=K(xi,xj),i,j=1,2,…,l;K代表核矩陣,k 是特征之間的內(nèi)積;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州云海信息技術(shù)有限公司,未經(jīng)鄭州云海信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810598902.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 從同步冗余設(shè)備選擇狀態(tài)數(shù)據(jù)的方法和系統(tǒng)
- 一種網(wǎng)絡(luò)冗余數(shù)據(jù)處理的方法、裝置和系統(tǒng)
- 一種針對(duì)ASIC設(shè)計(jì)中網(wǎng)表邏輯冗余的優(yōu)化方法及系統(tǒng)
- 一種特征冗余性分析方法、特征選擇方法和相關(guān)裝置
- 一種面向海底底質(zhì)分類的聲納圖像特征選擇的方法
- 一種基于模糊和去冗余的受限玻爾茲曼機(jī)圖像分類方法
- 基于改進(jìn)特征子集區(qū)分度的行為識(shí)別特征選擇方法
- 數(shù)據(jù)庫(kù)冗余信息處理方法
- 基于RealifF的特征選擇方法
- 一種基于屬性條件冗余的特征選擇方法
- 基于主成分分析法的機(jī)床制造能耗分析方法
- 一種基于歐拉核主成分分析的一維距離像穩(wěn)健識(shí)別方法
- 基于主成分分析法的電網(wǎng)異??焖贆z測(cè)與定位方法
- 基于核判別分析的人臉識(shí)別方法
- 基于主成分分析法的大客戶價(jià)值評(píng)價(jià)指標(biāo)權(quán)重確定方法
- 一種蝕變信息獲取方法及系統(tǒng)
- 基于主成分分析法預(yù)測(cè)收益的方法、裝置、設(shè)備及介質(zhì)
- 一種基于振動(dòng)信號(hào)主成分分析法的GIS狀態(tài)識(shí)別方法
- 一種基于PCA-AHP的量子通信網(wǎng)絡(luò)可靠性狀況的評(píng)估方法
- 一種高光譜數(shù)據(jù)處理方法、設(shè)備及介質(zhì)
- 一種運(yùn)動(dòng)估計(jì)的方法及裝置
- 一種采用復(fù)合形法改進(jìn)引力搜索算法的方法
- 一種基于博弈算法的黑白棋博弈方法及系統(tǒng)
- 應(yīng)用分析方法、裝置及存儲(chǔ)介質(zhì)
- 一種動(dòng)態(tài)搜索方法、裝置、設(shè)備及介質(zhì)
- 一種基于引力搜索算法的地聚物混凝土配合比方法
- 基于SA_SOA_BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全態(tài)勢(shì)預(yù)測(cè)方法
- 基于改進(jìn)共生生物搜索算法的植物冠層圖像分割算法
- 一種基于改進(jìn)烏鴉搜索算法的礦區(qū)開采沉降預(yù)測(cè)方法
- 基于改進(jìn)禁忌搜索算法的航空發(fā)動(dòng)機(jī)最低油耗控制優(yōu)化方法





