[發明專利]基于真實數據增強的多元時序數據填充方法在審
| 申請號: | 202011402595.5 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112465150A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 袁曉潔;歐陽嘉偉;周寶航;張瑩;蔡祥睿 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 天津創智睿誠知識產權代理有限公司 12251 | 代理人: | 王海濱 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 真實 數據 增強 多元 時序 填充 方法 | ||
本發明公開了一種基于真實數據增強的多元時序數據缺失值填充方法,通過編碼器壓縮真實數據為數據表征向量,之后通過生成器結合真實數據增強從數據表征向量從生成完整的數據向量,最后通過判別器分辨真實數據與生成數據。整個模型通過生成對抗式訓練優化編碼器、生成器與判別器的損失,從而使生成器生成的數據足夠接近真實數據以迷惑判別器,最后用生成器的生成數據填充多元時序數據中的缺失值。該方法以帶編碼器的生成對抗網絡為框架,在模型的編碼器、生成器、判別器中都運用了真實數據,使模型生成的數據更加真實可靠,可有效用于缺失值的填充。
技術領域
本發明屬于人工智能技術領域,具體涉及一種基于真實數據增強的多元時序數據填充方法。
背景技術
多元時序數據普遍存在于現實世界的各類實際場景中,如醫院定期歸檔的電子醫療記錄、股票市場每日發生變動的股票價格、氣象局時時監測的氣候因素等等。這些數據都是在多個時刻記錄,并且每個時刻的記錄都包含多個元素的多元時序數據,全面保存了對應場景中數據的整體變化規律。分析相應場景的多元時序數據可以對場景問題進行全方位分析,并對事物發展趨勢做出預測。
由于數據收集方式不規范、采集設備不穩定、傳輸媒介易丟失等問題,多元時序數據往往存在大量缺失值。這些缺失值的存在會影響多元時序數據的各類研究,并且許多分析模型受限于數據維度不規則的問題,難以直接對數據建模。同時缺失值的存在會導致數值信息不完整,同時存在信息有偏性,從而降低模型分析結果的準確性,嚴重的甚至造成分析結果的誤判。因此解決多元時序數據中存在缺失值的問題是數據分析的必要前提。
填充是解決缺失值的有效方法,一般有推斷和生成兩種方式:推斷是通過挖掘數據特征之間的關聯關系,利用未缺失的數值綜合推斷出缺失部分的數值;生成是挖掘數據整體的分布規律,利用生成模型生成出符合原數據規律的數據用于填充。相比于推斷的方式,生成更適用于含有大量缺失值的多元時序數據填充問題。并且生成模型可進一步用于生成新的未出現的數據以擴充數據集,幫助下游任務分析。
近些年來,許多深度學習的方法基于生成對抗網絡,構造生成模型用于多元時序數據填充。這些方法通過生成對抗訓練的方式不斷提高生成器的性能,以實現準確有效的數據生成。發表于NeurIPS2018的工作“Multivariate Time Series ImputationwithGenerative Adversarial Networks”通過引入生成對抗網絡WGAN實現對多元時序數據的填充。發表于IJCAI2019的工作“End-to-End Generative Adversarial NetworkforMultivariate Time Series Imputation”在NeurIPS2018工作的基礎上加入編碼器,優化了生成器生成數據的復雜度,原本需要長時間訓練的噪聲變量由編碼器壓縮真實數據得到,大量減少了訓練時間。這兩篇工作都在“基于生成對抗網絡的時序數據缺失值填充算法研究”一文中有詳細介紹。但這些方法都未考慮在生成器中引入真實數據,從而限制了生成模型的性能。生成器生成數據過程中,每一步的輸入是由生成器自身生成的,不接收其他輸入,這樣會導致錯誤的輸入持續影響后續數據的生成。
發明內容
本發明的目的在于克服現有技術的不足,提供了一種基于真實數據增強的多元時序數據填充方法。該方法以帶編碼器的生成對抗網絡為框架,在模型的編碼器、生成器、判別器中都運用了真實數據,使模型生成的數據更加真實可靠,可有效用于缺失值的填充。
本發明是通過以下技術方案實現的:
一種基于真實數據增強的多元時序數據缺失值填充方法,包括以下步驟:
步驟1、對含有缺失值的多元時序數據做預處理操作,進行數據劃分與正則化,進而生成真實數據矩陣與時間間隔矩陣;
步驟2、構造門循環填充單元對多元時序數據建模,并引入時間衰減機制應對時間間隔不規則的問題;
步驟3、基于第2步的門循環填充單元實現編碼器,通過編碼器壓縮真實數據為低維數據表征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011402595.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種型鋼打捆機及其使用方法
- 下一篇:一種血袋管理用抗金屬抗液體電子標簽
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





