[發(fā)明專利]支持相似性檢索的高緯缺失時間序列的壓縮方法及裝置在審
| 申請?zhí)枺?/td> | 201910750265.6 | 申請日: | 2019-08-14 |
| 公開(公告)號: | CN110569275A | 公開(公告)日: | 2019-12-13 |
| 發(fā)明(設(shè)計)人: | 張亮 | 申請(專利權(quán))人: | 清華大學山西清潔能源研究院;清華大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/22;G06F16/215;G06F16/2453 |
| 代理公司: | 11201 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人: | 王艷斌 |
| 地址: | 030032*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 時間序列 存儲方式 高維數(shù)據(jù) 高壓縮比 缺失數(shù)據(jù) 序列數(shù)組 階梯型 高維 存儲 壓縮方法及裝置 二進制 二進制索引 相似性檢索 快速壓縮 壓縮轉(zhuǎn)換 采集 轉(zhuǎn)換 記錄 | ||
1.一種支持相似性檢索的高緯缺失時間序列的壓縮方法,其特征在于,包括以下步驟:
采集高維數(shù)據(jù)序列數(shù)組,其中,采用二進制階梯標識進行編碼;
對所述高維數(shù)據(jù)序列數(shù)組的高維時間序列的進行壓縮轉(zhuǎn)換,并確定缺失數(shù)據(jù)點;以及
通過clustered存儲方式或者unclustered存儲方式存儲不同精確度的階梯型高壓縮比數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用二進制階梯標識進行編碼,包括:
根據(jù)歷史數(shù)據(jù)獲取分割點;
將所述高維時間序列的每個數(shù)值和所述分割點進行對比并使用二進制標識進行標識,其中,所述時間序列滿足預設(shè)條件,則每2個或3個數(shù)據(jù)點進行均分之后取均值,以支持整個時間序列的整體性相似性對比,并且對于缺失數(shù)據(jù),對原有的數(shù)據(jù)中缺失的所述數(shù)據(jù)點進行標識,如果原有數(shù)據(jù)點存在,標識為1,否則標識為0;
將歐幾里得相似性轉(zhuǎn)換為漢明相似性,以相似性對比,并通過歐幾里得下限計算得到下限計算結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過clustered存儲方式或者unclustered存儲方式存儲不同精確度的階梯型高壓縮比數(shù)據(jù),包括:
若時間序列差別滿足第二預設(shè)條件,則通過所述clustered存儲方式存儲;
若所述高維數(shù)據(jù)序列數(shù)組滿足第三預設(shè)條件,則通過unclustered存儲方式存儲,其中,標識為列表格式。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:根據(jù)二進制編碼進行二進制索引。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)二進制編碼進行二進制索引,包括:
若所述高維數(shù)據(jù)序列數(shù)組滿足第四預設(shè)條件,則使用binary string table進行索引,其中,每個分節(jié)點保留本地數(shù)據(jù)的table segment,或者保留master節(jié)點分配的segment的處理,以通過并行分擔來加速索引的檢索查詢;
在索引上查詢到節(jié)點后,如果是所述clustered存儲方式,則獲取當前時間序列,如果是所述unclustered存儲方式,則獲取是時間序列的當前存儲位置。
6.一種支持相似性檢索的高緯缺失時間序列的壓縮裝置,其特征在于,包括:
采集模塊,用于采集高維數(shù)據(jù)序列數(shù)組,其中,采用二進制階梯標識進行編碼;
壓縮轉(zhuǎn)換模塊,用于對所述高維數(shù)據(jù)序列數(shù)組的高維時間序列的進行壓縮轉(zhuǎn)換,并確定缺失數(shù)據(jù)點;以及
存儲模塊,用于通過clustered存儲方式或者unclustered存儲方式存儲不同精確度的階梯型高壓縮比數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述采集模塊進一步用于根據(jù)歷史數(shù)據(jù)獲取分割點,將所述高維時間序列的每個數(shù)值和所述分割點進行對比并使用二進制標識進行標識,其中,所述時間序列滿足預設(shè)條件,則每2個或3個數(shù)據(jù)點進行均分之后取均值,以支持整個時間序列的整體性相似性對比,并且對于缺失數(shù)據(jù),對原有的數(shù)據(jù)中缺失的所述數(shù)據(jù)點進行標識,如果原有數(shù)據(jù)點存在,標識為1,否則標識為0,并將歐幾里得相似性轉(zhuǎn)換為漢明相似性,以相似性對比,并通過歐幾里得下限計算得到下限計算結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述存儲模塊進一步用于若時間序列差別滿足第二預設(shè)條件,則通過所述clustered存儲方式存儲,若所述高維數(shù)據(jù)序列數(shù)組滿足第三預設(shè)條件,則通過unclustered存儲方式存儲,其中,標識為列表格式。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括:檢索模塊,用于根據(jù)二進制編碼進行二進制索引。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述檢索模塊進一步用于若所述高維數(shù)據(jù)序列數(shù)組滿足第四預設(shè)條件,則使用binary string table進行索引,其中,每個分節(jié)點保留本地數(shù)據(jù)的table segment,或者保留master節(jié)點分配的segment的處理,以通過并行分擔來加速索引的檢索查詢,在索引上查詢到節(jié)點后,如果是所述clustered存儲方式,則獲取當前時間序列,如果是所述unclustered存儲方式,則獲取是時間序列的當前存儲位置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學山西清潔能源研究院;清華大學,未經(jīng)清華大學山西清潔能源研究院;清華大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910750265.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種高維數(shù)據(jù)管理及關(guān)聯(lián)數(shù)據(jù)動態(tài)對比顯示方法
- 一種高維指數(shù)信號數(shù)據(jù)補全方法
- 新型高維數(shù)據(jù)的二維投影方法及其投影系統(tǒng)
- 一種降維空間視覺感知增強的高維時變數(shù)據(jù)可視化方法
- 一種基于多重流形的手寫數(shù)據(jù)分類方法及系統(tǒng)
- 高維數(shù)據(jù)分類方法、裝置及終端設(shè)備
- 一種高維數(shù)據(jù)可視化聚類分析方法及系統(tǒng)
- 高維數(shù)據(jù)異常檢測系統(tǒng)及方法
- 高維數(shù)據(jù)處理方法及裝置
- 高維數(shù)據(jù)的存儲方法、裝置、電子設(shè)備及存儲介質(zhì)





