[發明專利]一種基于粗糙集和群智能的特征選擇方法在審
| 申請號: | 201810589510.5 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN108875895A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 胡玉榮;余晨陽;余建國;胡斌;李祥琴;李冉;田雯;陸焱 | 申請(專利權)人: | 荊楚理工學院 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N99/00;G06F17/30 |
| 代理公司: | 武漢智元知識產權代理事務所(普通合伙) 42234 | 代理人: | 張炳楠;謝蓉 |
| 地址: | 448000 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 最優特征子集 特征選擇 粗糙集 個人信用 評分指標 數據處理與分析 商業數據 特征子集 智能 初始化 大數據 互信息 可行解 迭代 去除 噪聲 收斂 種群 篩選 輸出 全局 銀行 分析 | ||
本發明屬于數據處理與分析技術領域,特別是商業數據的處理與分析技術領域,具體地指一種基于粗糙集和群智能的特征選擇方法,所述方法包括以下步驟:步驟1:設置方法的參數;步驟2:利用粗糙集和互信息知識,計算出特征核;以及任選以下步驟中的一步或多步:步驟3:初始化種群;步驟4:計算可行解的適應值、個體極值Pbest和全局極值Gbest;步驟5:進行迭代;步驟6:輸出最優特征子集REDU。本方法計算簡單、收斂速度快(不需要求出所有特征子集),不僅可以處理大數據集,而且能夠得到最優特征子集(不會陷入局部最優),最終實現去除噪聲、得到最優特征子集的特征選擇目標。使用本發明提供的銀行個人信用評分指標篩選方法,可以快速、準確地得到簡化的個人信用評分指標體系。
技術領域
本發明屬于數據處理與分析技術領域,特別是商業數據的處理與分析技術領域,具體涉及一種基于粗糙集和群智能的特征選擇方法。
背景技術
伴隨著科技新浪潮,計算機和互聯網技術日益普及,大數據時代已悄然來臨,大數據正在成為重要的戰略資源,對大數據進行分析與挖掘顯得異常重要。在數據挖掘中,描述數據的特征維數越來越高,然而其中大部分特征可能和挖掘任務不相關或特征之間存在相互冗余,使得數據挖掘中學習算法的時空復雜度增高、效果變差,這種現象被稱為“維數災難”。面對“維數災難”,如何降低維數顯得非常迫切,特征選擇就是一種有效的降維方法。然而,隨著數據的特征維數越來越高,特征選擇方法面臨嚴峻挑戰。
特征選擇方法主要可應用于工程計算、控制設計、信號處理與通訊、圖像處理、醫療診斷、金融分析等領域,可幫助研究人員從大規模數據集中挑選出最優特征子集,簡化應用過程,降低研究人員后期數據處理的復雜度和工作量。例如,在銀行建立個人信用評分體系中,需要對個人信用評分進行指標篩選,存在如下問題:一是,如何選擇必要的指標;二是,當數據量較大時,如何減少計算耗時、加快篩選速度等問題。為了高效地進行數據篩選,建立一個簡化的信用評分指標體系,將高效的特征選擇方法應用到個人信用評分指標篩選中是非常必要的。
根據采用搜索策略的不同,現有的特征選擇方法可分為三大類:窮舉法、啟發式方法和隨機方法。
(1)窮舉法。首先求出所有滿足要求的特征子集,然后從中選取基數最少的特征子集。窮舉法可以搜索到所有的特征子集,但計算量大,尤其當特征數目多時幾乎不可行。
(2)啟發式方法。一種近似算法,通常采用啟發式信息來引導特征選擇過程,可以從一個空特征集或特征核開始,然后不斷添加特征(前向選擇法)或者從特征全集開始不斷刪除特征(后向刪除法),直至得到滿足要求的特征子集。啟發式方法較容易實現,計算復雜度相對較小,但容易陷入局部最優。
(3)隨機方法。首先隨機產生一些候選特征子集,然后依照一定的啟發式信息和規則不斷對其更新,直至逐步逼近全局最優解。隨機方法計算量大,所需時間長。
這三類方法中能夠確保得到最優特征子集的只有窮舉法,但窮舉法需要求出所有滿足要求的特征子集,計算復雜度高,并且需要消耗大量時間,所以不適合處理大數據集;啟發式方法簡單、快速且效率較高,但由于不存在完備的啟發式信息,并不能保證找到最優特征子集;隨機方法雖然能夠提供一個更好的特征選擇解決方案,但是操作非常耗時,需要進行大量計算,而且也無法保證每次都能得到最優特征子集。因此,目前在工程計算、控制設計、信號處理與通訊、圖像處理、醫療診斷、金融分析等領域,如何提高特征選擇的效率和精確度這一技術問題亟需改進。
發明內容
為改善上述技術問題,本發明提供一種基于粗糙集和群智能的特征選擇方法,該方法計算簡單、收斂速度快,不僅可以處理大數據集,而且能夠保證得到最優特征子集。
為實現此目的,本發明所設計的基于粗糙集和群智能的特征選擇方法,其特征在于,它包括如下步驟:
步驟1:設置方法的參數;
步驟2:利用粗糙集和互信息知識,計算出特征核;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于荊楚理工學院,未經荊楚理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810589510.5/2.html,轉載請聲明來源鉆瓜專利網。





