[發(fā)明專利]一種大數(shù)據(jù)的二次特征選擇方法及裝置在審
| 申請?zhí)枺?/td> | 201810598902.8 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108829816A | 公開(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計)人: | 王曉宇 | 申請(專利權(quán))人: | 鄭州云海信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南誠智商標專利事務(wù)所有限公司 37105 | 代理人: | 王汝銀 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 冗余特征 算法 主成分分析法 搜索算法 次特征 大數(shù)據(jù) 數(shù)據(jù)集 權(quán)重 去除 加權(quán) 樣本 處理模塊 分離模塊 算法模塊 通用度 高維 | ||
1.一種大數(shù)據(jù)的二次特征選擇方法,其特征是:所述的方法包括:
S1:將數(shù)據(jù)集分離;
S2:利用ReliefF算法得到樣本的每個特征所對應(yīng)的權(quán)重;
S3:利用主成分分析法對各個特征加權(quán);
S4:利用搜索算法去除冗余特征。
2.根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)的二次特征選擇方法,其特征是:步驟S1中,將數(shù)據(jù)集分離后,不同類樣本之間的距離增大。
3.根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)的二次特征選擇方法,其特征是:步驟S2的具體實現(xiàn)過程為:
選取樣本R的某個特征,在這個特征上分別計算樣本R和最近的相鄰的同類樣本H的距離D(RH),以及樣本R和最近的相鄰的不樣本M的距離D(RM);
判斷D(RH)和D(RM)的大小,若是D(RH)小于D(RM),則給這個特征設(shè)置的權(quán)重要相應(yīng)的增大;若是D(RH)大于D(RM),則給這個特征設(shè)置的權(quán)重要相應(yīng)的減少;
對于上述的過程要反復(fù)m次,最后通過計算得到每個特征的權(quán)重。
4.根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)的二次特征選擇方法,其特征是:步驟S3的實現(xiàn)原理為:使用基于核函數(shù)的主成分分析法將非線性數(shù)據(jù)轉(zhuǎn)換為線性數(shù)據(jù),然后再運用主成分分析法求出最主要貢獻的特征。
5.根據(jù)權(quán)利要求4所述的一種大數(shù)據(jù)的二次特征選擇方法,其特征是:步驟S3的具體實現(xiàn)過程為:
1)輸入數(shù)據(jù)并將數(shù)據(jù)投影到維度k,
2)計算核矩陣;
3)將核矩陣中心化;
4)計算上述核矩陣的特征值和特征向量;
5)將特征向量規(guī)范化;
6)將數(shù)據(jù)重建;
7)輸出變換之后的數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的一種大數(shù)據(jù)的二次特征選擇方法,其特征是:步驟S4的具體實現(xiàn)過程為:利用搜索算法中計算特征之間相關(guān)度的函數(shù),去除冗余特征。
7.根據(jù)權(quán)利要求6所述的一種大數(shù)據(jù)的二次特征選擇方法,其特征是:搜索算法中計算特征之間相關(guān)度的函數(shù)為:其中,W為A特征的權(quán)重,n代表每一個特征,g代表每一個特征對應(yīng)的小權(quán)重,N代表所有的特征。
8.一種大數(shù)據(jù)的二次特征選擇裝置,所述的裝置包括:
分離模塊,用來將數(shù)據(jù)集分離;
ReliefF算法模塊,利用ReliefF算法得到樣本的每個特征所對應(yīng)的權(quán)重;
KCPA模塊,利用主成分分析法對各個特征加權(quán);
處理模塊,利用搜索算法去除冗余特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州云海信息技術(shù)有限公司,未經(jīng)鄭州云海信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810598902.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 從同步冗余設(shè)備選擇狀態(tài)數(shù)據(jù)的方法和系統(tǒng)
- 一種網(wǎng)絡(luò)冗余數(shù)據(jù)處理的方法、裝置和系統(tǒng)
- 一種針對ASIC設(shè)計中網(wǎng)表邏輯冗余的優(yōu)化方法及系統(tǒng)
- 一種特征冗余性分析方法、特征選擇方法和相關(guān)裝置
- 一種面向海底底質(zhì)分類的聲納圖像特征選擇的方法
- 一種基于模糊和去冗余的受限玻爾茲曼機圖像分類方法
- 基于改進特征子集區(qū)分度的行為識別特征選擇方法
- 數(shù)據(jù)庫冗余信息處理方法
- 基于RealifF的特征選擇方法
- 一種基于屬性條件冗余的特征選擇方法
- 一種運動估計的方法及裝置
- 一種采用復(fù)合形法改進引力搜索算法的方法
- 一種基于博弈算法的黑白棋博弈方法及系統(tǒng)
- 應(yīng)用分析方法、裝置及存儲介質(zhì)
- 一種動態(tài)搜索方法、裝置、設(shè)備及介質(zhì)
- 一種基于引力搜索算法的地聚物混凝土配合比方法
- 基于SA_SOA_BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法
- 基于改進共生生物搜索算法的植物冠層圖像分割算法
- 一種基于改進烏鴉搜索算法的礦區(qū)開采沉降預(yù)測方法
- 基于改進禁忌搜索算法的航空發(fā)動機最低油耗控制優(yōu)化方法





