[發(fā)明專利]一種基于多種算法融合的缺失值插補(bǔ)方法在審
| 申請?zhí)枺?/td> | 201611123384.1 | 申請日: | 2016-12-08 |
| 公開(公告)號: | CN108197080A | 公開(公告)日: | 2018-06-22 |
| 發(fā)明(設(shè)計)人: | 陶波;許飛月;陳樂焱;李青海 | 申請(專利權(quán))人: | 廣東精點(diǎn)數(shù)據(jù)科技股份有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18 |
| 代理公司: | 北京隆源天恒知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11473 | 代理人: | 閆冬 |
| 地址: | 510630 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 插補(bǔ) 神經(jīng)網(wǎng)絡(luò)模型 算法融合 測試集 數(shù)據(jù)組 樣本集 訓(xùn)練神經(jīng)網(wǎng)絡(luò) 層次聚類 缺失數(shù)據(jù) 訓(xùn)練集 有效地 構(gòu)建 記錄 主觀 預(yù)測 | ||
本發(fā)明提供一種基于多種算法融合的缺失值插補(bǔ)方法,其包括:步驟S1:對所有數(shù)據(jù)進(jìn)行層次聚類;步驟S2:針對含有缺失值的類,根據(jù)是否為有缺失值的記錄,將記錄分為缺失數(shù)據(jù)組和完全數(shù)據(jù)組;步驟S3:將完全數(shù)據(jù)組中的數(shù)據(jù)隨機(jī)分成訓(xùn)練集和測試集,用n種現(xiàn)有的插補(bǔ)方法預(yù)測測試集,構(gòu)建一定數(shù)量的樣本集;步驟S4:運(yùn)用得到的樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得出神經(jīng)網(wǎng)絡(luò)模型;步驟S5:運(yùn)用神經(jīng)網(wǎng)絡(luò)模型對含有缺失值的類進(jìn)行插補(bǔ),得出最后的插補(bǔ)值;步驟S6:判斷是否存在還有缺失值的類,如果是,則執(zhí)行步驟S2,如果否,則執(zhí)行步驟S7;步驟S7:結(jié)束。本發(fā)明運(yùn)用現(xiàn)有多種方法得出的缺失值,解決人為主觀的選擇缺失值插補(bǔ)方法的不足,比較客觀有效地插補(bǔ)缺失值。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于多種算法融合的缺失值插補(bǔ)方法。
背景技術(shù)
在許多需要收集數(shù)據(jù)的研究中,數(shù)據(jù)缺失是很常見的,缺失原因多種多樣,主要有機(jī)械原因和人為原因。前者是由于機(jī)械原因?qū)е碌臄?shù)據(jù)的收集或者保存失敗,如數(shù)據(jù)存儲的失敗,存儲器損壞等;后者是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,如在問卷調(diào)查中被訪人員拒絕透露有關(guān)問題的答案,或者回答的問題是無效的,錄入人員失誤漏錄了數(shù)據(jù)。在調(diào)查前,做好規(guī)劃,對一些重要的數(shù)據(jù)注重避免數(shù)據(jù)缺失是極有必要的,但對于已經(jīng)缺失的數(shù)據(jù),為了充分利用進(jìn)行研究,尋找適合的插補(bǔ)方法對缺失值進(jìn)行插補(bǔ)顯得尤為重要。現(xiàn)階段,已經(jīng)出現(xiàn)的缺失值的插補(bǔ)方法有:均值替換法、熱卡填充法、回歸替換法、多重替代法等。在對數(shù)據(jù)的分布和缺失情況沒有較為全面的了解時,無法得知哪種方法對缺失值的插補(bǔ)效果較好,此時,人們往往根據(jù)以往經(jīng)驗(yàn)或者隨意在眾多的插補(bǔ)方法中選擇一種進(jìn)行插補(bǔ),對缺失值插補(bǔ)的合理性難以掌控,尤其是對于一些較為關(guān)鍵的變量,用不同的插補(bǔ)方法得出的插補(bǔ)值可能相差甚遠(yuǎn),進(jìn)而得到的結(jié)果和研究結(jié)論可能會完全不同。由此,運(yùn)用一種合理的插補(bǔ)方法是至關(guān)重要的,若是將各種插補(bǔ)方法的融合起來,進(jìn)而得到插補(bǔ)值,是一種不錯的想法。
鑒于上述缺陷,本發(fā)明創(chuàng)作者經(jīng)過長時間的研究和實(shí)踐終于獲得了本發(fā)明。
發(fā)明內(nèi)容
為解決上述技術(shù)缺陷,本發(fā)明采用的技術(shù)方案在于,提供了一種基于多種算法融合的缺失值插補(bǔ)方法,該方法包括以下步驟:
步驟S1:對所有數(shù)據(jù)進(jìn)行層次聚類;
步驟S2:針對含有缺失值的類,根據(jù)是否為有缺失值的記錄,將記錄分為缺失數(shù)據(jù)組和完全數(shù)據(jù)組;
步驟S3:將所述完全數(shù)據(jù)組中的數(shù)據(jù)隨機(jī)分成訓(xùn)練集和測試集,用n種現(xiàn)有的插補(bǔ)方法預(yù)測測試集,構(gòu)建一定數(shù)量的樣本集;
步驟S4:運(yùn)用得到的樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)得出神經(jīng)網(wǎng)絡(luò)模型;
步驟S5:運(yùn)用所述神經(jīng)網(wǎng)絡(luò)模型對含有缺失值的類進(jìn)行插補(bǔ),得出最后的插補(bǔ)值;
步驟S6:判斷是否存在還有缺失值的類,如果是,則執(zhí)行步驟S2,如果否,則執(zhí)行步驟S7;
步驟S7:結(jié)束。
較佳的,所述步驟S3具體包括以下步驟:
步驟S31:在所述完全數(shù)據(jù)組中隨機(jī)挑選一定數(shù)量記錄作為訓(xùn)練集,挑選一定數(shù)量的記錄作為測試集,其中,測試集的數(shù)據(jù)條數(shù)小于訓(xùn)練集的數(shù)據(jù)條數(shù);
步驟S32:運(yùn)用n種現(xiàn)有插補(bǔ)方法結(jié)合訓(xùn)練集得出n個模型,用模型預(yù)測測試集,得出測試集的預(yù)測值,將不同方法得出的預(yù)測值和真實(shí)值記為一個樣本;
步驟S33:重復(fù)步驟S32,得出一定數(shù)量的樣本集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,未經(jīng)廣東精點(diǎn)數(shù)據(jù)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611123384.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于插補(bǔ)精度和加速度限制的變插補(bǔ)周期曲線插補(bǔ)方法
- 一種高精度快速空間圓弧插補(bǔ)方法
- 一種NURBS曲線Taylor迭代的插補(bǔ)算法
- 一種數(shù)控插補(bǔ)尾巴平攤處理的方法
- 一種實(shí)用的工業(yè)六軸機(jī)械臂直線運(yùn)動軌跡規(guī)劃方法及系統(tǒng)
- 一種樣條曲線過濾拐角的插補(bǔ)方法及其插補(bǔ)系統(tǒng)
- 插補(bǔ)控制方法及裝置、計算機(jī)設(shè)備及可讀存儲介質(zhì)
- 多核處理器下的數(shù)控系統(tǒng)及其插補(bǔ)任務(wù)實(shí)現(xiàn)方法
- 插補(bǔ)控制方法、裝置以及可讀存儲介質(zhì)
- 一種基于誤差反饋的電力負(fù)荷數(shù)據(jù)插補(bǔ)方法
- 一種對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的方法、裝置及電子設(shè)備
- 一種神經(jīng)網(wǎng)絡(luò)模型壓縮方法以及裝置
- 姿態(tài)檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 基于無標(biāo)簽數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型量化方法及裝置
- 神經(jīng)網(wǎng)絡(luò)模型更新方法、圖像處理方法及裝置
- 含有聚類拓?fù)漶詈系纳窠?jīng)網(wǎng)絡(luò)脈沖同步方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)模型的部署方法、設(shè)備及介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì)
- 基于框架搜索的深度神經(jīng)網(wǎng)絡(luò)的加速與壓縮方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置
- 利用小波融合算法改進(jìn)圖像分割效果的方法
- 基于壓縮感知的多算法融合自適應(yīng)信號重構(gòu)方法
- 一種基于多方法融合的目標(biāo)跟蹤算法
- 一種人像比對算法融合方法及其裝置
- 一種基于集值映射的雙模態(tài)紅外圖像分塊多算法優(yōu)化融合方法
- 基于信任度和改進(jìn)遺傳算法應(yīng)用于無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合的一種方法
- 基于差異特征幅值區(qū)間融合有效度分布的雙模態(tài)紅外圖像融合算法選擇方法
- 基于非參數(shù)估計的差異特征頻次分布構(gòu)造方法
- 一種全自動泊車方法及系統(tǒng)
- 一種改進(jìn)的標(biāo)簽多伯努利分布式優(yōu)化融合跟蹤方法





