[發明專利]基于帶丟包自動編碼技術的時間序列數據圖形化分析方法有效
| 申請號: | 201410371240.2 | 申請日: | 2014-07-30 |
| 公開(公告)號: | CN104182771B | 公開(公告)日: | 2017-04-05 |
| 發明(設計)人: | 王巖;錢琛;郭雷 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66;G06K9/46 |
| 代理公司: | 北京慧泉知識產權代理有限公司11232 | 代理人: | 王順榮,唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 帶丟包 自動 編碼 技術 時間 序列 數據 圖形 化分 方法 | ||
1.基于帶丟包自動編碼技術的時間序列數據圖形化分析方法,其特征在于:該方法具體步驟如下:
步驟1:數據預處理
數據預處理階段是將時間序列數據轉化為能讓自動編碼機獲得圖像特征的圖像格式;該處理的好壞會直接影響圖像特征抽象的質量,最終采用黑白兩色的面積圖作為時間序列數據圖像化形式,即將時間序列轉化為同等長度的正方形像素矩陣,每一列像素表示了一個數據,由于在預處理階段采用了堆棧式自動編碼機,所以在得到時間序列數據圖像化形式后還要將其轉化為堆棧式向量,最終形成堆棧式自動編碼機的訓練樣本的輸入與輸出;
步驟2:預訓練
處理完了自動編碼機的輸入與輸出后,即開始訓練自動編碼機,該結構是以一個標準的三層神經網絡結構為基礎,進行了適當的改進得到;首先,在輸入層中,由于圖片轉化后的堆棧式向量輸入往往是很高維的,為了提高神經網絡自學習的能力,在輸入層加入了丟包機制,即以一定的概率使輸入層節點的輸入為零,這樣,整個神經網絡的有效輸入層節點數會顯著地降低,網絡結構也就變得簡單,隨之帶來的好處就是神經網絡的學習性能有了大幅提升;該過程也類似與人類視覺處理的特點,當一個物體的某一個局部被遮擋時,人依然可以成功識別該物體的特征;此外,神經網絡通過前向傳播機制與誤差反向傳播機制進行訓練,這兩個機制能保證整個網絡結構的誤差不斷降低,最終達到期望的誤差精度;
由于自動編碼機的目的是使訓練樣本的輸出能盡可能地接近輸入,在這個過程中,通常把輸入層到隱藏層的數據傳遞過程稱為編碼過程,而把隱藏層到輸出層之間的數據傳遞過程稱為解碼過程,下面將針對這兩個過程進行數學上的描述:
編碼機:將輸入轉化成隱藏層特征的映射fθ稱為編碼機,每一個輸入向量X和權重矩陣W將應用于一個非線性的激活函數a(u),這個過程表示為:
V=fθ(X)=a(WX+b)
V是一個由編碼機獲得的特征矩陣,fθ是一個仿射的映射,它的參數集為θ={W,b},其中,W是一個d×n的權重矩陣,而b是一個d維的隱藏層補償向量;
解碼機:解碼映射gθ'被用于重構自動編碼機的輸出Y,它看作是編碼機的逆過程,因此,解碼機的結構與編碼機相類似,其表達形式為:
Y=gθ'(V)=o(W'V+b')
其中,o(v)為輸出層的激活函數,W'為一個n×d維隱藏層到輸出層之間的連接權重,而b'是一個n維的輸出層補償向量,解碼機的參數集為θ'={W',b'};
根據信息量最大化原理,一個好的表示應該從輸入中獲取盡可能多的信息,而在自動編碼機里面,這種信息被隱藏在參數集{θ,θ'}中;而獲得最優的參數集途徑,即為最小化全局信息損失函數的過程,這個函數表示為:
而在實際應用中,通常采用平方差損失函數,它的表示形式為:
通過誤差梯度反向傳播機制,能通過最小化信息損失函數來使得自動編碼機達到輸出盡可能地等于輸入的效果;
由于時間序列往往是高維數據,其轉化為圖像之后形成的堆棧式向量輸入的維數將會比時間序列數據本身的維數有平方式的增長,這導致了自動編碼機的輸入節點數量極其龐大;龐大的輸入節點數量會帶來兩個方面的弊端,其一,節點數量增加導致了自動編碼機的神經網絡結構復雜度增加,使得訓練時間大大延長;其二,節點數量增加也會使整個網絡的收斂性能下降,即神經網絡的訓練精度會有所下降;所以,引入了丟包算法這個改進方案,即以一定的概率使得輸入節點的輸入值為零,這樣,一定程度上削減了自動編碼機的網絡復雜程度,使得隱藏層的特征表示更加稀疏;實驗結果表明,該方法大大增加了自動編碼機的訓練精度,并且減少了訓練所使用的時間;
根據上面的描述,編碼機映射fθ被重新表示為:
其中,m是一個n維的二值向量,它的每一個元素mj都服從Bernoulli(p)的伯努利分布,而M'是一個d×n維的帶丟包連接矩陣,它的每一行都是相同的一個二值元素;在此基礎之上,化簡損失函數的形式,表達為:
這樣,一些輸入節點對于隱藏層節點的作用就會被屏蔽,而如果將|M|記為矩陣M中元素的個數,那么整個自動編碼機網絡的可能的形式就從2|M|降到了種;
通過上述過程,即可訓練得到含有訓練樣本圖像特征的自動編碼機網絡;該網絡可用于后續分類器的訓練,減少分類器訓練過程出現的過擬合現象,并且極大地提高了分類器的訓練精度與訓練效率;
步驟3:訓練分類器
當自動編碼機訓練完畢,對于輸入樣本的良好表示就從編碼機的權重當中獲取,此時,能利用這種良好的表示訓練分類器;這里選取了誤差反向傳播神經網絡分類器,訓練分類器首先需要構造訓練樣本的期望輸出,運用在不同的應用環境中,其分類器的期望輸出是不相同的;如果將用于相似度匹配,那么期望輸出應該構造成一個單位矩陣,這樣相當于每一個訓練樣本都是一個,而分類器的最終目的是將訓練樣本歸結到與自身所對應的那個類標中去;如果應用于分類中,那么構造的期望輸出就是訓練樣本自身的期望類標,在構造完期望輸出之后,即對分類器進行訓練;由于選擇了神經網絡分類器,其結構與上面所提到的自動編碼機所用到的神將網絡結構類似,亦是一個標準三層神經網絡;設置該網絡的輸入層到隱藏層之間的連接矩陣為已經在預訓練階段得到的編碼機權重,這樣就用到在與訓練階段得利用自動編碼機得到的時間序列圖像特征來提升分類器的分類精度;除此之外,選擇合適的學習率,即得到一個訓練精度相當高的分類器;
步驟4:應用階段
當預訓練階段與分類器訓練階段都完成后,會得到一個訓練過的分類器,該分類器里包含了時間序列樣本的圖像特征信息,并且已經把具有類似圖像特征的樣本映射到相應的類標上;利用這個訓練好的分類器,就能實現相似度匹配與分類的功能;
在實現相似度匹配時,將需要匹配的時間序列片段轉化為與預訓練階段訓練樣本相同的圖像轉換格式,再將其轉化為堆棧式向量,即作為分類器的輸入;通過分類器神經網絡的計算,輸出是該時間序列片段匹配最相近的時間序列片段序號,而在實現分類時,只需要將分類樣本轉化為圖像格式,再將其轉化為堆棧式向量作為分類器的輸入;分類器的輸出結果為該輸入片段的分類類標;
在應用階段,無論是被匹配的時間序列數據樣本有多少,神經網絡分類器僅需計算一次即可得出結果,這比現有的基于距離度量的相似度測量方法高效得多;同時,雖然預訓練、分類器訓練和應用這三個階段有依次的參數依賴關系,但是由于自動編碼機高效的特征抽象提取能力,參數的實時性并不會對分類器的性能造成很大的影響,換言之,如果需要數據更新,這三個階段能在不同的計算機上進行分布式并行計算更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410371240.2/1.html,轉載請聲明來源鉆瓜專利網。





