[發明專利]數據壓縮模型訓練方法及裝置、存儲介質有效
| 申請號: | 202110812042.5 | 申請日: | 2021-07-16 |
| 公開(公告)號: | CN113687773B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 白智德;白志得;哈米德;黃坤;殷燕 | 申請(專利權)人: | 深圳智慧林網絡科技有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 518000 廣東省深圳市南山區桃*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據壓縮 模型 訓練 方法 裝置 存儲 介質 | ||
本申請公開了一種數據壓縮模型訓練方法及裝置、存儲介質。該方法包括:讀取設定大小的數據塊;分析在所述數據塊中增加冗余的可能性;確定在所述數據塊中生成冗余數據的函數的索引號;以及采用所述索引號對應的函數在所述數據塊中生成冗余數據。采用本申請的方案,與傳統的直接尋址冗余數據的壓縮算法不同,通過分析在數據塊中增加冗余的可能性,采用對應壓縮算法在數據塊中生成冗余數據,可以獲得超出現有可能性的壓縮比,提高了壓縮性能。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種數據壓縮模型訓練方法及裝置、存儲介質。
背景技術
目前存在的壓縮技術是利用傳統信息理論得到的算法。這導致壓縮,尤其是無損壓縮的結果就是查找和移除文件中的冗余數據。傳統的壓縮算法,即使是那些利用AI和ML的新的壓縮算法,均聚焦于冗余。發現的冗余越多,壓縮比會更好。
例如,哈夫曼(Huffman)和行程長度(Run-length)算法傾向于發現純粹的冗余,意味著它們傾向于注意到一塊數據(例如文本的特征),從而在更大塊的數據中盡可能地發現大量的和該塊數據完全相同的復制的數據。那些算法在某種程度上執行得較好,但是它們的主要的問題是它們已經發展到壓縮的瓶頸,所有那些基于冗余的算法不能發現新的產生冗余的方式。
已有的方法都是基于去除或減少選出的數據塊中存在的冗余。除了專注于存在的冗余,而不是產生更多的冗余,傳統的壓縮算法的問題實質在于它們均考慮了具有固定大小的或一定大小可變的數據塊,或者考慮了僅存在于一個文件中的包含的所有的大量的數據塊。并且大部分的傳統的壓縮算法僅執行檢查小數據塊中的冗余,也就是2的指數(即4,8,16,32,63,128,256字節)。
僅依賴于已有的在小塊數據中發現冗余,限制了那些傳統的壓縮算法的性能。
發明內容
本申請提供一種數據壓縮模型訓練方法及裝置、存儲介質,以提供高比例的數據塊壓縮。
第一方面,提供了一種數據壓縮模型訓練方法,所述方法包括:
讀取設定大小的數據塊;
分析在所述數據塊中增加冗余的可能性;
確定在所述數據塊中生成冗余數據的函數的索引號;
采用所述索引號對應的函數在所述數據塊中生成冗余數據。
在一種可能的實現中,所述分析在所述數據塊中增加冗余的可能性,包括:
根據所述數據塊的數據類型,分析在所述數據塊中增加冗余的可能性。
在另一種可能的實現中,所述方法還包括:
生成第一熱圖,所述第一熱圖包括在所述數據塊中冗余的m位長的高值數字,m為正整數。
在又一種可能的實現中,所述方法還包括:
將所述冗余數據存儲在所述數據塊中。
在又一種可能的實現中,所述方法還包括:
根據概率預測算法,預測壓縮的數據塊的數量。
在又一種可能的實現中,所述方法還包括:
對設定數量的數據塊進行壓縮,所述數據塊來源于一個或多個文件;
生成第二熱圖,所述第二熱圖包括在所述數據塊中的n位長的高值數字,n∠m,n為正整數。
在又一種可能的實現中,所述方法還包括:
當檢測到包含冗余數據的數據塊不適合永久存儲,則刪除所述包含冗余數據的數據塊。
第二方面,提供了一種數據壓縮模型訓練裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳智慧林網絡科技有限公司,未經深圳智慧林網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110812042.5/2.html,轉載請聲明來源鉆瓜專利網。





