[發(fā)明專利]一種基于特征維度的機器學(xué)習(xí)模型優(yōu)化的方法及裝置在審
| 申請?zhí)枺?/td> | 202211725208.0 | 申請日: | 2022-12-30 |
| 公開(公告)號: | CN115905875A | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設(shè)計)人: | 金肖;谷曉磊 | 申請(專利權(quán))人: | 浙江大學(xué)嘉興研究院 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214 |
| 代理公司: | 杭州中成專利事務(wù)所有限公司 33212 | 代理人: | 李亦慈;唐銀益 |
| 地址: | 314031 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 維度 機器 學(xué)習(xí) 模型 優(yōu)化 方法 裝置 | ||
本發(fā)明公開了一種基于特征維度的機器學(xué)習(xí)模型優(yōu)化的方法及裝置,利用多重交叉驗證和多維評判指標的特點,實現(xiàn)了一種基于特征維度的機器學(xué)習(xí)模型優(yōu)化的方法。通過結(jié)合數(shù)據(jù)集本身特點進行分組劃分訓(xùn)練集,定義第一重交叉驗證,再通過第二重傳統(tǒng)的K折交叉驗證,解決模型過擬合的問題,為后續(xù)的評判標準增加可信度。通過特征個數(shù)和特征維度兩方面來評價特征子集的優(yōu)劣,使機器學(xué)習(xí)模型的評判標準從多方位考慮,從而降低模型的不穩(wěn)定性,實現(xiàn)提升機器學(xué)習(xí)模型性能的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及一種機器學(xué)習(xí)模型性能優(yōu)化方法,具體地說,是一種基于特征維度的機器學(xué)習(xí)模型優(yōu)化的方法及裝置。
背景技術(shù)
隨著人工智能技術(shù)的不斷發(fā)展,越來越多的研究者使用信息數(shù)據(jù)提高生產(chǎn)率去解決現(xiàn)實問題,而訓(xùn)練機器學(xué)習(xí)模型就是其中最有效的方法之一。機器學(xué)習(xí)算法已廣泛應(yīng)用于各種應(yīng)用和領(lǐng)域。但是,如何提升機器學(xué)習(xí)模型的準確率,提高機器學(xué)習(xí)模型的泛化能力,成為了如今研究者們思考更多的問題。
目前提升機器學(xué)習(xí)算法模型準確率的方法多種多樣。比如:增加更多數(shù)據(jù)集;處理缺失值與異常值;特征工程;特征選擇;機器學(xué)習(xí)算法比較;算法調(diào)參等等,總的來說一般是從數(shù)據(jù)角度和算法角度兩個方面進行優(yōu)化。
特征選擇是模式識別、數(shù)據(jù)挖掘等領(lǐng)域的重要研究內(nèi)容,它通過選擇原始特征集合中的重要特征構(gòu)成特征子集,達到降低數(shù)據(jù)維數(shù),同時保持或提高系統(tǒng)分類性能的目的。在選擇特征子集時,不僅僅需要考慮特征維度與機器學(xué)習(xí)模型的輸出的相關(guān)性,還需要考慮多個特征之間的自相關(guān)性,防止過擬合。
其中特征選擇算法根據(jù)所采用的特征評價策略可以分為Filter和Wrapper兩大類。其中Wrapper方法在篩選特征的過程中直接用所選特征子集來訓(xùn)練分類器,根據(jù)分類器在測試集的性能表現(xiàn)來評價該特征子集的優(yōu)劣。然而該方法直接用特征子集用來訓(xùn)練機器學(xué)習(xí)模型,容易出現(xiàn)過擬合的現(xiàn)象。訓(xùn)練機器學(xué)習(xí)模型的擬合過程中,存在偶然性,性能表現(xiàn)會出現(xiàn)略微波動,存在不穩(wěn)定的現(xiàn)象。
發(fā)明內(nèi)容
本發(fā)明正是針對現(xiàn)有技術(shù)存在的問題,提供了一種基于特征維度的機器學(xué)習(xí)模型優(yōu)化方法及裝置,利用雙重交叉驗證的方式,排除訓(xùn)練子集所訓(xùn)練的機器學(xué)習(xí)模型過擬合的情況。將特征子集分拆為特征個數(shù)和特征維度,評判標準由兩方面入手,讓機器學(xué)習(xí)模型的性能從多方面考慮,排除機器學(xué)習(xí)模型擬合過程中出現(xiàn)的偶然性和波動情況,從而減少機器學(xué)習(xí)模型的不穩(wěn)定性,提升模型的泛化能力。
具體地,該方法利用多重交叉驗證的方法,第一重需要結(jié)合數(shù)據(jù)集的特點分為三折交叉驗證,第二重采用傳統(tǒng)意義的K折交叉驗證,從而避免機器學(xué)習(xí)模型過擬合的情況。在評判標準方面,分別從特征個數(shù)和具體的特征維度兩方面考慮,先確定特征子集的個數(shù),再通過特征維度占比率調(diào)整權(quán)重計算出重要性系數(shù),篩選出性能較好的特征維度,從而提升機器學(xué)習(xí)的穩(wěn)定性。具體地,本發(fā)明是采用以下技術(shù)方案來實現(xiàn)的:
本發(fā)明公開了一種基于特征維度的機器學(xué)習(xí)模型優(yōu)化方法,包括:
獲得至少2個以上特征維度與1個標簽維度的數(shù)據(jù);
通過皮爾遜相關(guān)系數(shù)算法獲得每個特征維度和標簽維度數(shù)據(jù)的相關(guān)性系數(shù);
根據(jù)所獲得每個特征維度和標簽維度數(shù)據(jù)的相關(guān)性系數(shù)刪除所有小于閾值的所有特征維度,得到篩選后剩余的特征維度;篩選后剩余的特征維度為至少2個以上;
根據(jù)篩選后剩余的特征維度展開隨機排列組合,組合為不同的特征維度組合,每一種特征維度組合的數(shù)據(jù)與所對應(yīng)的標簽維度數(shù)據(jù)都構(gòu)成一種新的數(shù)據(jù)集,即組合為不同的數(shù)據(jù)集;
根據(jù)所形成新的數(shù)據(jù)集劃分為至少2個以上不同的訓(xùn)練集和測試集;
根據(jù)劃分好的訓(xùn)練集和測試集,每一對訓(xùn)練集和測試集都通過K折交叉驗證的方式訓(xùn)練機器學(xué)習(xí)模型,得到K個預(yù)測結(jié)果;
根據(jù)不同的數(shù)據(jù)集統(tǒng)計出當(dāng)前特征維度組合內(nèi)的特征維度個數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué)嘉興研究院,未經(jīng)浙江大學(xué)嘉興研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211725208.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





