[發明專利]基于分區的正整數序列壓縮方法有效
| 申請號: | 201710110815.9 | 申請日: | 2017-02-28 |
| 公開(公告)號: | CN107026652B | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 瞿有利;李俊廷 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | H03M7/40 | 分類號: | H03M7/40 |
| 代理公司: | 11255 北京市商泰律師事務所 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分區 正整數 序列 壓縮 方法 | ||
本發明提供了一種基于分區的正整數序列壓縮方法。該方法主要包括:通過正整數序列X構造單調遞增正整數序列S;構造所述單調遞增正整數序列S的有向無環圖G;使用迪杰斯特拉算法計算所述有向無環圖G中從源點到匯點的最短路徑;根據上述最短路徑,得到單調遞增正整數序列S的最優劃分;計算最優劃分中每一個區塊的元素個數和每一個區塊采用Golomb?Rice編碼時需要的參數b;采用Elias Gamma編碼對元素個數進行編碼和參數b進行編碼,采用Golomb?Rice編碼對每一個區塊內所有元素進行編碼,根據編碼結果得到單調遞增正整數序列S的壓縮結果。本發明綜合了序列分區編碼利用正整數序列的局部“聚集”性質與Golomb?Rice編碼的高效性等優點,提高了正整數序列的壓縮性能。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種基于分區的正整數序列壓縮方法。
背景技術
正整數序列壓縮的主要目的是減少正整數序列占用的存儲空間、減少使用時磁盤讀取次數和加快數據的傳輸效率。比如:在信息檢索中,正整數序列的壓縮常用于壓縮倒排索引中文檔標識符(docID)序列、頻率(frequency)序列和位置(position)序列,一方面可以節省倒排索引文件占用的存儲空間;另一方面可以減少查詢時的磁盤和內存讀取次數。
互聯網上數據呈現爆炸式增長,由這些數據構造的倒排索引需要的存儲空間也越來越大,因此,開發一種對正整數序列進行有效的壓縮編碼方法是一個亟待解決的問題。
發明內容
本發明的實施例提供了一種基于分區的正整數序列壓縮方法,以實現對正整數序列進行有效的壓縮編碼。
為了實現上述目的,本發明采取了如下技術方案。
一種基于分區的正整數序列壓縮方法,包括:
通過正整數序列構造單調遞增正整數序列S;
構造所述單調遞增正整數序列S的有向無環圖G,該有向無環圖G的頂點為v0,v1,...,vn-1,vn;
使用迪杰斯特拉算法計算所述有向無環圖G的從v0到vn的最短路徑π=(v0,vi)(vi,vj)...(vm,vn);
根據所述最短路徑π=(v0,vi)(vi,vj)...(vm,vn),得到所述單調遞增正整數序列S的最優劃分為δ={s1,s2,...,si}{si+1,si+2,...,sj}...{sm+1,sm+2,...,sn},區塊{si+1,si+2,...,sj}記作Parti+1,j;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710110815.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種模擬低通濾波器、模擬信息轉換器以及濾波方法
- 下一篇:糧倉型酒瓶





