[發(fā)明專利]一種基于機(jī)器學(xué)習(xí)的時(shí)間序列數(shù)據(jù)填補(bǔ)與還原方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910947754.0 | 申請(qǐng)日: | 2019-10-08 |
| 公開(公告)號(hào): | CN110457867B | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 鄭澤宇;溫苗苗;尚文祥;李鴿;李娜;何治;胡海濱;何輝輝;石磊 | 申請(qǐng)(專利權(quán))人: | 杭州知衣科技有限公司 |
| 主分類號(hào): | G06F30/27 | 分類號(hào): | G06F30/27;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 311200 浙江省杭州市蕭山區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 機(jī)器 學(xué)習(xí) 時(shí)間 序列 數(shù)據(jù) 填補(bǔ) 還原 方法 | ||
本發(fā)明涉及計(jì)算機(jī)時(shí)間序列數(shù)據(jù)分析與預(yù)測(cè)技術(shù)領(lǐng)域,具體涉及一種基于機(jī)器學(xué)習(xí)的時(shí)間序列數(shù)據(jù)填補(bǔ)與還原方法。使用基于領(lǐng)域的中位數(shù)+均值填充法,填充缺失值;通過線性規(guī)則,估算期望采樣時(shí)刻的真實(shí)值;檢測(cè)時(shí)間序列的波峰與波谷,平滑異常值;以采集的數(shù)十萬條真實(shí)數(shù)據(jù)為樣本,設(shè)計(jì)和生成時(shí)序特征,以真實(shí)結(jié)果為標(biāo)簽,基于極速梯度提升決策樹(XGBoost)的機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,用于對(duì)海量未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。本發(fā)明解決了特定時(shí)間序列數(shù)據(jù)的缺失值多、波動(dòng)性大、誤差累積等問題,有效提高了數(shù)據(jù)填補(bǔ)與還原的準(zhǔn)確率;并且較好地控制了機(jī)器學(xué)習(xí)模型的復(fù)雜度,能在小時(shí)級(jí)內(nèi)完成上億條數(shù)據(jù)記錄的填補(bǔ)與還原,具有較強(qiáng)的實(shí)用價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)時(shí)間序列數(shù)據(jù)分析與預(yù)測(cè)技術(shù)領(lǐng)域,具體涉及一種基于機(jī)器學(xué)習(xí)的時(shí)間序列數(shù)據(jù)填補(bǔ)與還原方法。
背景技術(shù)
當(dāng)前,信息技術(shù)被廣泛應(yīng)用于各行各業(yè)并不斷產(chǎn)生出各類相關(guān)數(shù)據(jù),數(shù)據(jù)的采集和挖掘技術(shù)也隨之興起,為相關(guān)行業(yè)的管理決策提供強(qiáng)有力的支持,提高經(jīng)濟(jì)和社會(huì)效益。
數(shù)據(jù)采集是一種從數(shù)據(jù)源收集、識(shí)別和選取數(shù)據(jù)的過程。數(shù)據(jù)采集可以分為實(shí)時(shí)采集和間隔采集。實(shí)時(shí)采集指的是在數(shù)據(jù)存在期間對(duì)其進(jìn)行采集。間隔采集是指在等間隔的時(shí)間點(diǎn)上對(duì)數(shù)據(jù)進(jìn)行采集。理想的實(shí)時(shí)采集可以最大程度保留原始數(shù)據(jù),從而為進(jìn)一步的數(shù)據(jù)挖掘提供有效力保證。然而,實(shí)時(shí)采集要求采集不間斷在線,對(duì)采集設(shè)備和系統(tǒng)的實(shí)時(shí)性和穩(wěn)定性要求高(目前的視頻監(jiān)控系統(tǒng)為典型的實(shí)時(shí)采集)。對(duì)于無法實(shí)現(xiàn)實(shí)時(shí)采集的數(shù)據(jù),間隔采集是一種有效的替代方法,通過適當(dāng)?shù)姆椒▽?duì)間隔采集所得數(shù)據(jù)進(jìn)行還原,可以最大程度模擬實(shí)時(shí)采集的效果,同時(shí)降低對(duì)采集系統(tǒng)的要求。
在數(shù)據(jù)的間隔采集中,一類常見的數(shù)據(jù)類型為滑動(dòng)時(shí)間窗口累計(jì)值。例如,給定時(shí)間周期內(nèi)的商品銷售量(某些電商網(wǎng)站展示的是商品的近N天累計(jì)銷量,為了推算商品的日銷量,理論上需每天凌晨0點(diǎn)整采集一次商品的近N天累計(jì)銷量)、給定時(shí)間周期內(nèi)的用電量等。從采集的粗粒度時(shí)間周期內(nèi)的數(shù)據(jù)累計(jì)值還原出細(xì)粒度時(shí)間片的數(shù)據(jù)當(dāng)期值,是此類數(shù)據(jù)采集的重要技術(shù)。例如,從七天累計(jì)銷量還原出日銷量;從月用電量還原出日用電量等等。在理想條件下,間隔采集可以準(zhǔn)確無誤采集到每個(gè)指定采集時(shí)間點(diǎn)上相關(guān)數(shù)據(jù),此時(shí)由累計(jì)值還原當(dāng)期值是簡便易行的(例如,每日定時(shí)采集用戶的30日累計(jì)用電量,則前后兩日的差值即為一日的用電量當(dāng)期值)。但在現(xiàn)實(shí)環(huán)境中,間隔采集卻常常遇到采集不準(zhǔn)確甚至采集缺失的困難,例如,無法在計(jì)劃的時(shí)間點(diǎn)采集數(shù)據(jù),采集設(shè)備故障等等;并且由于某些特定場(chǎng)景下的時(shí)間序列數(shù)據(jù)波動(dòng)性大,一旦出現(xiàn)采集不準(zhǔn)確、采集缺失的問題,將帶來非常大的累計(jì)誤差。
目前,數(shù)據(jù)分析領(lǐng)域中針對(duì)此類問題的解決方案較少,并且存在以下不足:
1、簡單的采取均值填補(bǔ)方法、基于數(shù)據(jù)關(guān)聯(lián)和基于密度的填補(bǔ)方法,會(huì)因數(shù)據(jù)的波動(dòng)性而造成數(shù)據(jù)還原的嚴(yán)重失偏,影響所采集的數(shù)據(jù)可用性;
2、業(yè)界基于深度學(xué)習(xí)的數(shù)據(jù)還原方法,又容易存在模型過擬合、訓(xùn)練和預(yù)測(cè)耗時(shí)長,難以實(shí)用于大規(guī)模數(shù)據(jù)的填補(bǔ)和還原。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決上述問題,提供一種基于機(jī)器學(xué)習(xí)的時(shí)間序列數(shù)據(jù)填補(bǔ)與還原方法。本發(fā)明的方法是針對(duì)上述數(shù)據(jù)間隔采集中的問題,在進(jìn)行深入研究后,提供一種基于機(jī)器學(xué)習(xí)的時(shí)間序列數(shù)據(jù)填補(bǔ)及還原方法,該方法為后期的數(shù)據(jù)分析與決策支持提供高質(zhì)量的可靠數(shù)據(jù)。
為了達(dá)到上述發(fā)明目的,本發(fā)明采用以下技術(shù)方案:
一種基于機(jī)器學(xué)習(xí)的時(shí)間序列數(shù)據(jù)填補(bǔ)與還原方法,該方法步驟如下:
S1、采集時(shí)間序列數(shù)據(jù),包括不同物品、不同采樣時(shí)刻的滑動(dòng)窗口累計(jì)值;
S2、收集真實(shí)的各采樣間隔內(nèi)的累計(jì)值;
S3、使用基于領(lǐng)域的中位數(shù)+均值法,填充缺失值;
S4、通過線性規(guī)則,估算期望采樣時(shí)刻的真實(shí)采樣值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州知衣科技有限公司,未經(jīng)杭州知衣科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910947754.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 時(shí)間同步裝置、時(shí)間同步系統(tǒng)和時(shí)間同步方法
- 時(shí)間校準(zhǔn)裝置和時(shí)間校準(zhǔn)方法
- 時(shí)間同步系統(tǒng)及時(shí)間同步方法
- 時(shí)間同步方法、時(shí)間同步系統(tǒng)、時(shí)間主設(shè)備以及時(shí)間從設(shè)備
- 時(shí)間控制裝置和時(shí)間控制方法
- 時(shí)間測(cè)試電路及時(shí)間測(cè)試方法
- 時(shí)間的飛行時(shí)間
- 局部激活時(shí)間的時(shí)間變換
- 時(shí)間測(cè)量電路、時(shí)間測(cè)量芯片及時(shí)間測(cè)量裝置
- 時(shí)間同步方法與時(shí)間同步系統(tǒng)





