[發明專利]基于帶丟包自動編碼技術的時間序列數據圖形化分析方法有效
| 申請號: | 201410371240.2 | 申請日: | 2014-07-30 |
| 公開(公告)號: | CN104182771B | 公開(公告)日: | 2017-04-05 |
| 發明(設計)人: | 王巖;錢琛;郭雷 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66;G06K9/46 |
| 代理公司: | 北京慧泉知識產權代理有限公司11232 | 代理人: | 王順榮,唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 帶丟包 自動 編碼 技術 時間 序列 數據 圖形 化分 方法 | ||
技術領域
本發明涉及一種基于帶丟包自動編碼技術的時間序列數據圖形化分析方法,該方法受到人類視覺對數據處理方式的啟發,針對傳統時間序列分析方法注重時間序列的數據特征而對數據的變化十分敏感的缺點,利用帶丟包的堆棧式自動編碼技術自動學習時間序列數據的圖形特征,并將時間序列數據重新抽象表達,然后利用習得的特征用于誤差反向傳播神經網絡分類器的訓練,進而實現對時間序列數據的相似性匹配與分類功能,屬于數據挖掘與機器學習領域。
背景技術
在過去的二十年里,不同的時間序列分析、挖掘的技術不斷產生。這些技術主要集中在時間序列的相似度匹配、分類、聚類和分割上。但是,由于這些技術都是建立在時間序列的數據特征基礎之上,所以它們對于某些符合自身數據處理要求的時間序列數據有很好的分析處理效果,而在另外的數據上的處理能力可能大幅下降。這使得這些技術對于現實問題僅有很有限的意義。
效力與效率是時間序列分析的最終目標,而目前的技術可以分為兩大類,一類是表示,另一類是測量。基于表示的方法有主要目的是通過降低時間序列數據的維數來對其進行處理,常見的方法有:離散傅里葉變換(DFT)、奇異值變換(SVD)、離散余弦變換(DCT)、離散小波變換(DWT)、線性平均分段累積近似方法(PPA)、自適應逐段常量近似(APCA)、符號聚集近似(SAX)和可轉位分段線性近似(IPLA)等等。但是,由于時間序列數據通常是非常高維的,在降低數據維度的同時還能保持數據的基本特征幾乎是一件不可能完成的事。相較而言,基于距離測量的時間序列分析方法更加容易實現。最常見的就是歐式距離,它非常易于應用于不同的問題中。然而,歐式距離(ED)對于噪聲和有時間位移的時間序列數據沒有很好的處理效果。為此,有學者提出了動態時間彎曲距離(DTW)來解決有時間位移的時間序列分析問題,并得到了廣泛的使用。然而,動態時間彎曲距離的最大弱點是它的算法復雜度太高,常常達不到實際問題中的時效性。另外,還有一類基于距離的度量方法被廣泛用于處理字符串、語音和生物信息。如最長公共子序列(LCSS)、實序列編輯距離(EDR)、實補償編輯距離(ERP)。實序列編輯距離比歐氏距離和動態彎曲距離的魯棒性更好,而相較最長公共子序列,它的精度有比較高,但是它也不能處理帶時間位移的時間序列數據分析問題,所以實補償編輯距離的提出彌補了它的這個缺點。然而,實補償編輯距離和動態時間彎曲距離一樣,對噪聲比較敏感。綜上所述如何能夠找到一種時間序列分析方法能夠既具有效力和效率,又具有魯棒性,是一個十分迫切的問題。
發明內容
1、發明目的
本發明的目的是:針對現有的時間序列數據處理方法注重時間序列的數據特征而對數據的變化十分敏感的缺點,提供一種基于帶丟包自動編碼技術的時間序列數據圖形化分析方法,它是一種更具有魯棒性和準確性的時間序列數據分析方法。本發明與現有方法的最大差異在于本發明是基于時間序列數據的圖像特征進行時間序列分析,克服了現有時間序列數據分析方法僅針對特有數據形式有良好性能而沒有普適性的不足,在相似度匹配中,本發明相較現有方法擁有良好的準確度與極低的時間復雜度,而在分類當中,又比現有方法更具魯棒性,其分類精度在不同數據集中的綜合表現也非常優異。
2、技術方案
本發明是一種基于帶丟包自動編碼技術的時間序列數據圖形化分析方法,其設計思想是:模擬人類視覺系統處理時間序列數據的過程,先將時間序列數據轉化成帶有圖形特征的圖像,再利用帶丟包的自動編碼技術抽象提取時間序列數據的圖像特征,并利用該特征訓練神經網絡分類器,最后將訓練得到的神經網絡分類器應用于時間序列數據的相似度匹配和分類當中。
下面結合流程框圖1中所示的步驟,具體介紹本發明的技術方案。
步驟1:數據預處理
數據預處理階段的主要內容及作用是將時間序列數據轉化為能讓自動編碼機獲得圖像特征的圖像格式。該處理的好壞會直接影響圖像特征抽象的質量。本方法最終采用黑白兩色的面積圖作為時間序列數據圖像化形式,即將時間序列轉化為同等長度的正方形像素矩陣,每一列像素表示了一個數據。由于在預處理階段采用了堆棧式自動編碼機,所以在得到時間序列數據圖像化形式后還要將其轉化為堆棧式向量,最終形成堆棧式自動編碼機的訓練樣本的輸入與輸出。
步驟2:預訓練
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410371240.2/2.html,轉載請聲明來源鉆瓜專利網。





