[發(fā)明專利]支持相似性檢索的高緯缺失時間序列的壓縮方法及裝置在審
| 申請?zhí)枺?/td> | 201910750265.6 | 申請日: | 2019-08-14 |
| 公開(公告)號: | CN110569275A | 公開(公告)日: | 2019-12-13 |
| 發(fā)明(設(shè)計)人: | 張亮 | 申請(專利權(quán))人: | 清華大學(xué)山西清潔能源研究院;清華大學(xué) |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/22;G06F16/215;G06F16/2453 |
| 代理公司: | 11201 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人: | 王艷斌 |
| 地址: | 030032*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 時間序列 存儲方式 高維數(shù)據(jù) 高壓縮比 缺失數(shù)據(jù) 序列數(shù)組 階梯型 高維 存儲 壓縮方法及裝置 二進制 二進制索引 相似性檢索 快速壓縮 壓縮轉(zhuǎn)換 采集 轉(zhuǎn)換 記錄 | ||
本發(fā)明公開了一種支持相似性檢索的高緯缺失時間序列的壓縮方法及裝置,其中,方法包括以下步驟:采集高維數(shù)據(jù)序列數(shù)組,其中,采用二進制階梯標(biāo)識進行編碼;對高維數(shù)據(jù)序列數(shù)組的高維時間序列的進行壓縮轉(zhuǎn)換,并確定缺失數(shù)據(jù)點;通過clustered存儲方式或者unclustered存儲方式存儲不同精確度的階梯型高壓縮比數(shù)據(jù)。該方法可以完成高維時間序列的快速壓縮轉(zhuǎn)換并支持缺失數(shù)據(jù)點的記錄,并支持不同精確度的階梯型高壓縮比存儲,且支持在圖形領(lǐng)域廣泛使用的二進制索引技術(shù),簡單易實現(xiàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及壓縮編碼技術(shù)領(lǐng)域,特別涉及一種支持相似性檢索的高緯缺失時間序列的壓縮方法及裝置。
背景技術(shù)
工業(yè)物聯(lián)網(wǎng)系統(tǒng)收集的數(shù)據(jù)都具有時間標(biāo)簽,所以收集的數(shù)據(jù)在某時間段內(nèi)屬于高維數(shù)據(jù)序列數(shù)組。在大數(shù)據(jù)處理平臺處理的過程涉及到數(shù)據(jù)采集、儲存和檢索。目前大數(shù)據(jù)平臺支持的時間序列都是通過傳統(tǒng)的數(shù)據(jù)庫技術(shù)來支持時間序列中“點”的操作,如發(fā)現(xiàn)一個時間序列中的最大值,取一個時間段的均值等。但是目前的人工智能算法依賴于在底層數(shù)據(jù)系統(tǒng)能夠?qū)崿F(xiàn)的整體時間序列相似性對比。
與該技術(shù)相近的是兩種時間序列壓縮技術(shù):iSAX和Clipped Code。其中,iSAX編碼a.整個數(shù)據(jù)序列normalized之后,均分成M個數(shù)據(jù)段(默認(rèn)值為8),并使用均值來代表整個數(shù)據(jù)段;b.將標(biāo)準(zhǔn)正態(tài)分布劃分成面積相同N個基數(shù)子空間(默認(rèn)值為256),每個子空間使用整數(shù)數(shù)據(jù)或者字符來順序標(biāo)識各子空間(標(biāo)識之后會轉(zhuǎn)換成二進制),上述均值落入子空間之后,使用子空間的數(shù)字標(biāo)識來標(biāo)識該數(shù)據(jù)段;c.使用子空間數(shù)據(jù)序列來代表整個時間序列數(shù)據(jù),通過計算子空間分割點來計算兩條時間序列的歐幾里得距離(EuclideanDistance)相似性下限。Clipped Code編碼:a.取整個時間序列的均值做子空間分割點(N=2);b.對每個值和分割點進行對比,大于分割點的為1,小于分割點的為2;c.該算法不支持相似性下限計算,支持漢明距離(Hamming Distance)的計算,而不支持廣泛使用的歐幾里得距離的相似性對比。
現(xiàn)有兩種相關(guān)技術(shù):iSAX技術(shù)和Clipped Code技術(shù)完成類似功能。然而,現(xiàn)有技術(shù)存在如下缺陷:
iSAX技術(shù)缺點:1.不支持缺失數(shù)據(jù)處理;2.假設(shè)數(shù)據(jù)點都是normalized過的;3.該編碼技術(shù)需要專門的索引架構(gòu);4.雖然采用二進制碼轉(zhuǎn)換來表示每個基數(shù)空間并支持階梯型精確度,但由于取均值來表示每段數(shù)據(jù),存在精確度底的問題;5.需要專門的數(shù)據(jù)結(jié)構(gòu)來支持索引。
Clipped Code缺點:1.不支持階梯型精確度;2.不支持缺失數(shù)據(jù)處理;3.只支持簡單的數(shù)據(jù)模型和漢明距離計算,無法對兩條數(shù)據(jù)序列的細微差別進行識別。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個目的在于提出一種支持相似性檢索的高緯缺失時間序列的壓縮方法,該方法可以完成高維時間序列的快速壓縮轉(zhuǎn)換并支持缺失數(shù)據(jù)點的記錄,并支持不同精確度的階梯型高壓縮比存儲,且支持在圖形領(lǐng)域廣泛使用的二進制索引技術(shù),簡單易實現(xiàn)。
本發(fā)明的另一個目的在于提出一種支持相似性檢索的高緯缺失時間序列的壓縮裝置。
為達到上述目的,本發(fā)明一方面實施例提出了一種支持相似性檢索的高緯缺失時間序列的壓縮方法,包括以下步驟:采集高維數(shù)據(jù)序列數(shù)組,其中,采用二進制階梯標(biāo)識進行編碼;對所述高維數(shù)據(jù)序列數(shù)組的高維時間序列的進行壓縮轉(zhuǎn)換,并確定缺失數(shù)據(jù)點;通過clustered存儲方式或者unclustered存儲方式存儲不同精確度的階梯型高壓縮比數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)山西清潔能源研究院;清華大學(xué),未經(jīng)清華大學(xué)山西清潔能源研究院;清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910750265.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種高維數(shù)據(jù)管理及關(guān)聯(lián)數(shù)據(jù)動態(tài)對比顯示方法
- 一種高維指數(shù)信號數(shù)據(jù)補全方法
- 新型高維數(shù)據(jù)的二維投影方法及其投影系統(tǒng)
- 一種降維空間視覺感知增強的高維時變數(shù)據(jù)可視化方法
- 一種基于多重流形的手寫數(shù)據(jù)分類方法及系統(tǒng)
- 高維數(shù)據(jù)分類方法、裝置及終端設(shè)備
- 一種高維數(shù)據(jù)可視化聚類分析方法及系統(tǒng)
- 高維數(shù)據(jù)異常檢測系統(tǒng)及方法
- 高維數(shù)據(jù)處理方法及裝置
- 高維數(shù)據(jù)的存儲方法、裝置、電子設(shè)備及存儲介質(zhì)





