[發(fā)明專利]一種基于人工蜂群算法的數(shù)據(jù)特征選擇方法在審
| 申請?zhí)枺?/td> | 201611162314.7 | 申請日: | 2016-12-15 |
| 公開(公告)號: | CN106650914A | 公開(公告)日: | 2017-05-10 |
| 發(fā)明(設計)人: | 陳杰;周武能;陸康迪 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00 |
| 代理公司: | 上海泰能知識產(chǎn)權代理事務所31233 | 代理人: | 宋纓,錢文斌 |
| 地址: | 201620 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工 蜂群 算法 數(shù)據(jù) 特征 選擇 方法 | ||
技術領域
本發(fā)明涉及數(shù)據(jù)處理技術領域,特別是涉及一種基于人工蜂群算法的數(shù)據(jù)特征選擇方法。
背景技術
近年來,數(shù)據(jù)挖掘技術在商業(yè)智能、生物醫(yī)療和基因檢測等領域得到了的廣泛應用,而如何從大規(guī)模數(shù)據(jù)中進行降維,以得到有效的簡化數(shù)據(jù),正變得越來越重要。在許多實際應用中,存儲于數(shù)據(jù)庫中的數(shù)據(jù)集往往擁有成千甚至上萬個特征,但并不是所有的特征都對發(fā)現(xiàn)隱藏于數(shù)據(jù)背后的重要信息有幫助。由于只有小部分特征代表著整個高維特征空間的分布特性,這些需要被刪選掉的特征,不僅在學習算法對知識發(fā)現(xiàn)的過程中增加了干擾,也增加了學習結果的復雜性和不可解釋性。特征選擇作為一種關鍵的數(shù)據(jù)分析方法和預處理手段,在對數(shù)據(jù)進行知識挖掘之前,通過從原始數(shù)據(jù)特征集合中選擇其中的一個最優(yōu)特征子集,不但可以消除數(shù)據(jù)噪聲的干擾、剔除冗余和無關的特征,也可以大大降低后續(xù)數(shù)據(jù)處理的復雜度,減小運行時間,并提高數(shù)據(jù)分析的準確性和有效性。目前,特征選擇已成功地應用于圖像分類、聚類分析、模式識別和圖片檢索等場合,幫助研究人員從大規(guī)模數(shù)據(jù)集中挑選出最好的一組特征子集,簡化應用過程,從而更好地理解學習算法的結果。
特征選擇方法可以分為過濾式和封裝式兩種模式。過濾式是基于數(shù)據(jù)的統(tǒng)計特性,如計算信息熵、距離等度量指標來賦予各個特征不同的權重,以此來決定特征是否應該被保留或剔除,所以是一種獨立于學習算法之外的特征選擇方法。與過濾式不同的是,封裝式則利用學習算法來甄別出有用的特征,將特征選擇問題建模為一個典型的組合優(yōu)化問題,通過基于學習算法的特征選擇搜索方法,尋找到最優(yōu)特征子集。總的來說,封裝式可以比過濾式取得更好的學習結果,這是因為封裝式建立了特征與學習算法之間的關系,可以為不同的學習算法選擇最適合的特征子集,從而大大提高學習算法的準確率。不過,封裝式往往會比過濾式占用更多的運行時間。
不管是過濾式還是封裝式,現(xiàn)有的特征選擇搜索方法存在著高復雜度和低效率的缺陷。例如,暴力搜索方法通過評估特征集合的每一個特征子集來達到選擇最優(yōu)特征子集的目的。然而,面對擁有較多特征的大數(shù)據(jù)集來說,這是不可能實現(xiàn)的,因此,在實際應用中很少采用這種方法。此外,在利用封裝式來選擇最優(yōu)特征子集時,并沒有考慮對最優(yōu)特征個數(shù)的最小化。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種基于人工蜂群算法的數(shù)據(jù)特征選擇方法,能夠降低特征選擇方法的復雜性。
本發(fā)明解決其技術問題所采用的技術方案是:提供一種基于人工蜂群算法的數(shù)據(jù)特征選擇方法,包括以下步驟:
(1)確定人工蜂群算法的控制參數(shù),將獲得的數(shù)據(jù)集進行預約歸一化處理;
(2)初始化產(chǎn)生一組采蜜蜂位置,依據(jù)選擇的特征選擇適應度函數(shù)計算每一個采蜜蜂的適應度值,并將其對應的開采次數(shù)置為零;
(3)基于人工蜂群算法的更新方式,更新采蜜蜂位置,計算新個體的適應度值并更新其開采次數(shù);
(4)計算選擇概率模型函數(shù),依概率模型函數(shù)選擇一個采蜜蜂作為觀察蜂,更新觀察蜂位置,計算新個體的適應度值并更新其開采次數(shù);
(5)觀察開采次數(shù),實施采蜜蜂位置更新機制;
(6)保留目前為止最優(yōu)解位置,即代表最優(yōu)特征子集;
(7)若達到最大迭代次數(shù),則輸出最優(yōu)特征子集;否則重復步驟(2)~步驟(6)。
所述步驟(1)的具體為:對數(shù)據(jù)集中的每一維特征值映射至[0,1]范圍,即f'=(f-f min)/(f max-f min),其中,f'為該維特征映射后的值,f為該維特征未映射前的值,f min為該維特征在數(shù)據(jù)集中的最小值,f max為該維特征在數(shù)據(jù)集中的最大值。
所述步驟(2)中初始化產(chǎn)生一組采蜜蜂位置具體為:針對特征選擇這一組合優(yōu)化問題,對采蜜蜂位置采用二進制編碼,編碼長度值代表數(shù)據(jù)集中原始特征的總個數(shù),用“1”表示該位代表的特征被選中,用“0”表示該位代表的特征未被選中。
所述步驟(2)中每一個采蜜蜂的適應度值計算方式為Fit=w*(1-Acc)+(1-w)*(N1/N2),其中,F(xiàn)it為適應度函數(shù)值,Acc為基于數(shù)據(jù)集利用10-fold交叉驗證法計算得到的學習算法的準確率,N1為采蜜蜂位置中置為“1”的個數(shù),N2為數(shù)據(jù)集中原始特征的總個數(shù);w為權重值,取值范圍為[0,1]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經(jīng)東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611162314.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





