[發(fā)明專利]基于信息論改進的并行深度森林分類方法有效
| 申請?zhí)枺?/td> | 202011618761.5 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112686313B | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計)人: | 毛伊敏;耿俊豪 | 申請(專利權(quán))人: | 韶關(guān)學(xué)院 |
| 主分類號: | G06V10/74 | 分類號: | G06V10/74;G06V10/762;G06V10/764;G06K9/62;G06N20/00;G16H30/00 |
| 代理公司: | 重慶天成卓越專利代理事務(wù)所(普通合伙) 50240 | 代理人: | 王宏松 |
| 地址: | 512023 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 信息論 改進 并行 深度 森林 分類 方法 | ||
1.一種基于信息論改進的并行深度森林分類方法,其特征在于,包括以下步驟:
S1,獲取待處理數(shù)據(jù),對待處理數(shù)據(jù)采用混合降維策略,獲得降維后的數(shù)據(jù)集;
所述混合降維策略包括:
S1-1,結(jié)合MapReduce模型,并行計算特征信息增益值;
S1-1-1,用Hadoop中的文件塊策略,將原始數(shù)據(jù)集的特征空間劃分為大小相同的數(shù)據(jù)塊Block;
S1-1-2,數(shù)據(jù)塊Block作為輸入數(shù)據(jù),Mapper節(jié)點通過調(diào)用Map函數(shù)以鍵值對的形式統(tǒng)計出每個特征的信息增益,組合每個鍵值對得到特征信息增益集合A={<key1,value1>,<key2,value2>......<keyb,valueb>},其中,key為特征名稱,value為對應(yīng)特征的信息增益,<key1,value1>為1維的特征信息增益,<key2,value2>為2維的特征信息增益<keyb,valueb>為b維的特征信息增益;
S1-1-3,根據(jù)特征對應(yīng)的信息增益值對集合A中元素降序排列,移除集合A中排序較為靠后的特征,重新組合得到特征選擇后的矩陣表示特征選擇后的數(shù)據(jù)集DB′的m維特征空間中的n個樣本,其中1≤m≤d,d表示d維;
S1-1-4,將特征選擇后的矩陣X′與標簽向量Y按列合并后得到的特征選擇后的數(shù)據(jù)集DB′;
S1-2,結(jié)合條件互信息提出特征相關(guān)性函數(shù);
特征相關(guān)性函數(shù)評估特征選擇后的數(shù)據(jù)集DB′中特征的相似度;
特征相關(guān)性函數(shù)
其中,xa、xb是新的特征矩陣X′中任意兩個不同特征,I(xa;Y|xb)表示在特征xb的條件下特征xa與標簽向量Y之間的相關(guān)性,I(xb;Y|xa)表示在特征xa的條件下特征xb與標簽向量Y之間的相關(guān)性,表示特征矩陣X′中所有特征兩兩之間的條件互信息之和;
S1-3,以凝聚層次聚類的方式聚類相似特征,并結(jié)合MapReduce框架與主成分分析算法并行的對每個簇中的特征進行降維;
S1-3-1,采用凝聚層次聚類的方式對特征聚類,將相似度較高的特征歸為相同簇;
將相似特征聚集在相同簇中,得到聚類后返回的簇集合C={C1,C2,......CK},其中CK表示第K個簇;
S1-3-2,結(jié)合MapReduce框架,并行對每個簇中的特征進行提??;
根據(jù)框架中Mapper節(jié)點的個數(shù)均勻分配簇,對于每個簇,Mapper節(jié)點通過調(diào)用Map函數(shù)利用PCA算法對簇中特征進行提取;
并以鍵值對<key′,value′>的形式返回簇的特征提取結(jié)果,其中key′為簇的標號,value′為簇中對應(yīng)特征提取后的結(jié)果,
待所有Mapper節(jié)點執(zhí)行完畢后,通過解析每個節(jié)點中的鍵值對便可得到經(jīng)特征提取后的特征矩陣即降維特征矩陣,表示特征提取后的數(shù)據(jù)集DB*的q維特征空間中的n個樣本,并與標簽向量Y按合并后即可得到降維數(shù)據(jù)集DB*;
S2,采用改進的多粒度掃描策略對樣本進行掃描,用于合并數(shù)據(jù);
S2-1,對降維后的數(shù)據(jù)進行數(shù)據(jù)組合處理;
S2-2,規(guī)定多粒度掃描的范圍,采用多粒度掃描獲取數(shù)據(jù)子集,并利用數(shù)據(jù)子集訓(xùn)練模型、預(yù)測分類;再將得到的分類結(jié)果拼接為類向量作為輸入樣本傳送至級聯(lián)森林;
S3,采用樣本加權(quán)策略,根據(jù)評估結(jié)果選取樣本進入下一層訓(xùn)練;
S4,結(jié)合MapReduce框架并行構(gòu)建級聯(lián)森林,輸出處理后的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于信息論改進的并行深度森林分類方法,其特征在于,所述數(shù)據(jù)組合處理包括:
S2-1-1,若所組合數(shù)據(jù)為序列數(shù)據(jù),則采用一段相同的數(shù)據(jù)與其首尾組合;
S2-1-2,若所組合數(shù)據(jù)為圖像數(shù)據(jù),則采用三部分相同的數(shù)據(jù)在右、下以及對角處與其組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于韶關(guān)學(xué)院,未經(jīng)韶關(guān)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011618761.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





