[發明專利]一種基于Stacking框架的特征選擇方法在審
| 申請號: | 202110679793.4 | 申請日: | 2021-06-18 |
| 公開(公告)號: | CN113535694A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 王海榮;薛偉偉 | 申請(專利權)人: | 北方民族大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06N20/20;G16H50/20 |
| 代理公司: | 西安研創天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 750021 寧夏回族*** | 國省代碼: | 寧夏;64 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 stacking 框架 特征 選擇 方法 | ||
本發明公開了一種基于Stacking框架的特征選擇方法,使用K?Fold交叉驗證方式訓練并保存DNN、SVM基學習器,基學習器預測結果作為元學習器輸入,訓練并保存邏輯回歸學習模型;綜合分析全連接神經網絡權重矩陣、支持向量機相關系數,根據元學習器模型學習結果為各基學習器賦予不同權重,計算各特征影響因子并調用序列后向搜索算法(SBS)生成最優特征子集。實驗結果表明本發明公開的方法能夠減少模型訓練時間,提升模型的召回率、F1值。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種基于Stacking框架的特征選擇方法。
背景技術
特征選擇是通過計算源數據中每個特征對最終模型輸出結果的影響因子來進行選擇與過濾,其主要用于數據高維特征空間的降維處理,來解決“維度災難”問題。由于在眾多研究領域的模型訓練中,均能通過特征選擇來降低源數據高維信息的語義矩陣維度,從而減少模型復雜度,達到縮短模型訓練時間、降低訓練成本的目的,因此,特征選擇算法在學術界和行業得到廣泛關注。例如在疾病診斷應用上,通常使用特征選擇方法生成原始數據特征空間最優的特征子集,然后使用最優特征子集來判斷一位就診人員是否有患心臟病的風險。心臟病診斷的準確性和效率由所選擇的特征子集和分類器決定。如果模型特征過多、復雜度高,診斷的準確率和效率就會降低。
傳統的特征選擇方法主要包括主成分分析法(PCA)、TF-IDF、互信息等。丁雪梅等使用調整的余弦相似度來度量特征間的相關性,提出一種基于Relief的無監督特征選擇方法。高寶林等對傳統CHI進行改進,引入類內和類間分布因子來降低特征詞在類間均勻分布時對分類帶來的負貢獻并將其應用微博情感分析。周傳華等特征相關性和分類能力兩個方面對特征進行綜合度量,調用序列前向選擇來刪除冗余特征并用實驗證明其有效性。胡峰等動態地將原始特征集劃分為若干個特征子空間,提出了一種基于特征聚類的封裝式特征選擇算法并證明該算法可提升分類器性能。陳諶等提出一種基于隨機森林Gini指標和卡方檢驗的最優特征子集的特征選擇方法并應用于支持向量機算法模型中,解決了傳統機器學習分類算法在非平衡數據集上準確率降低的問題。雷海銳等提出一種基于filter-wrapper模型的混合式特征選擇方法并通過實驗證明了該方法選擇的特征子集具有更好的分類能力。Chen等針對高維數據提出一種SFR特征選擇方法,該方法首先進行子空間特征聚類來判別每個特征對每個類別重要性,然后使用分層特征加權方法對特征排序。Kewen Li等針對正負樣本不均衡數據集提出一種加權互信息的WMI特征選擇方法,該方法使用模糊C均值聚類為樣本分配不同權重,根據權重計算互信息,最后用NASA四個不均衡數據來驗證WMI方法有效性。
綜上,現有特征選擇算法通過分析單個特征信息增益(IG)、平均下降Gini指數等指標來衡量該特征與學習目標相關性,根據相關性大小來過濾冗余特征,沒有考慮模型訓練時源數據高維語義矩陣線性變換和非線性變換過程中不同維度間相互影響的關系。
發明內容
針對上述存在的問題,本發明提供一種基于Stacking框架的特征選擇方法,結合Stacking學習模型能夠融合多個機器學習模型的優勢,利用序列后向搜索的特征選擇算法通過綜合分析多個學習模型訓練過程中生成的學習參數并做加權處理,能夠更細粒度地提取和分析源數據特征空間中每個特征影響因子大小。
實現本發明目的的技術解決方案為:
一種基于Stacking框架的特征選擇方法,其特征在于,包括以下步驟:
步驟1:對輸入的疾病數據進行清洗,分析各特征維度數據缺失情況并進行填充,并對數據進行標準化處理,得到更加規范的用于機器學習的數據集;
步驟2:使用K-Fold交叉驗證方式訓練Stacking集成學習模型,并將步驟1得到的數據集輸入到所述Stacking集成學習模型中進行訓練,得到特征因子影響矩陣;
步驟3:利用特征選擇算法對所述特征因子影響矩陣進行選擇,不斷迭代刪除冗余特征,最終輸出分類器全局最高精確率和所對應的最優特征子集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方民族大學,未經北方民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110679793.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中心靜脈插管用導管鞘及輔助裝置
- 下一篇:一種便捷的笛架筒





