[發(fā)明專利]數(shù)據(jù)壓縮方法、數(shù)據(jù)解壓縮方法、裝置及電子設(shè)備有效
| 申請?zhí)枺?/td> | 201910818105.0 | 申請日: | 2019-08-30 |
| 公開(公告)號: | CN110647508B | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計)人: | 舒承椿 | 申請(專利權(quán))人: | 北京達佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/22 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 李娜 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)壓縮 方法 數(shù)據(jù) 解壓縮 裝置 電子設(shè)備 | ||
本公開關(guān)于一種數(shù)據(jù)壓縮方法、數(shù)據(jù)解壓縮方法、裝置、電子設(shè)備及存儲介質(zhì)。所述數(shù)據(jù)壓縮方法,包括:獲取待壓縮的稀疏特征的原始表示數(shù)據(jù),原始表示數(shù)據(jù)中包括非零特征數(shù)組、非零特征數(shù)組對應(yīng)的索引數(shù)組、稠密形狀數(shù)組;根據(jù)索引數(shù)組,以及預(yù)設(shè)的索引表示長度,獲取稀疏特征的索引分段數(shù)據(jù);索引分段數(shù)據(jù)中包括每個索引分段的段值、段長度和段偏移量;針對非零特征數(shù)組中的每個非零特征值,根據(jù)索引分段數(shù)據(jù)將非零特征值以及非零特征值對應(yīng)的索引值進行合并,得到稀疏特征的壓縮表示數(shù)組;根據(jù)壓縮表示數(shù)組、索引分段數(shù)據(jù),以及稠密形狀數(shù)組,獲取稀疏特征的壓縮表示數(shù)據(jù)。取得了提高數(shù)據(jù)壓縮效率,降低壓縮數(shù)據(jù)的字節(jié)數(shù)以及信息冗余的有益效果。
技術(shù)領(lǐng)域
本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)壓縮方法、數(shù)據(jù)解壓縮方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
相關(guān)技術(shù)中,深度學習模型使用的特征分為稀疏特征和稠密特征。其中,稠密特征是特征的每個維度都有固定長度,且它的值都是稠密有意義的,稀疏特征是指一類特征長度比較大,但通常只有少數(shù)幾個值不為零,其他都為零的特征,例如廣告用戶的ID(身份標識),長度可能是2千萬,但只有一個值為1,其他位置為0。在模型訓練時,數(shù)據(jù)的特征通常以小批量(mini-batch)方式存儲,而且稀疏特征通常采用三元組的形式表示,而且一個小批量的訓練數(shù)據(jù)中99%可能是稀疏特征,因此針對稀疏特征的有效壓縮對訓練數(shù)據(jù)網(wǎng)絡(luò)傳輸和讀取效率的提升會有很大幫助。
目前,開源的深度學習框架tensorflow采用(index,values,dense_shape)三元組的形式表示稀疏特征。其中values(值)是一個列表,表示這個批次中所有的稀疏特征的值;index(索引)表示values中的每一個值屬于哪個樣本;dense_shape(稠密形狀)表示這一個批次的數(shù)據(jù)的維度,及它有多少個樣本,每個樣本最多有多少個特征。
但是,上述表示方式需要使用2*|values|個數(shù)據(jù)表示一個稀疏特征,使得傳輸數(shù)據(jù)的字節(jié)數(shù)仍然太大,并且傳輸信息有冗余。
發(fā)明內(nèi)容
本公開提供一種數(shù)據(jù)壓縮方法、數(shù)據(jù)解壓縮方法、裝置、電子設(shè)備及存儲介質(zhì),以至少解決相關(guān)技術(shù)中針對稀疏特征的傳輸數(shù)據(jù)字節(jié)數(shù)較大,傳輸信息有冗余的問題。本公開的技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種數(shù)據(jù)壓縮方法,包括:
獲取待壓縮的稀疏特征的原始表示數(shù)據(jù),所述原始表示數(shù)據(jù)中包括非零特征數(shù)組、非零特征數(shù)組對應(yīng)的索引數(shù)組、稠密形狀數(shù)組;
根據(jù)所述索引數(shù)組,以及預(yù)設(shè)的索引表示長度,獲取所述稀疏特征的索引分段數(shù)據(jù);所述索引分段數(shù)據(jù)中包括每個索引分段的段值、段長度和段偏移量;
針對所述非零特征數(shù)組中的每個非零特征值,根據(jù)所述索引分段數(shù)據(jù)將所述非零特征值以及所述非零特征值對應(yīng)的索引值進行合并,得到所述稀疏特征的壓縮表示數(shù)組;
根據(jù)所述壓縮表示數(shù)組、所述索引分段數(shù)據(jù),以及所述稠密形狀數(shù)組,獲取所述稀疏特征的壓縮表示數(shù)據(jù)。
可選地,所述根據(jù)所述索引數(shù)組,以及預(yù)設(shè)的索引表示長度,獲取所述稀疏特征的索引分段數(shù)據(jù)的步驟,包括:
根據(jù)預(yù)設(shè)的索引表示長度,獲取所述稀疏特征的索引值上限;
以所述索引值上限為參照,對所述索引數(shù)組進行分段,并獲取每個索引分段的段值、段長度和段偏移量。
可選地,所述針對所述非零特征數(shù)組中的每個非零特征值,根據(jù)所述索引分段數(shù)據(jù)將所述非零特征值以及所述非零特征值對應(yīng)的索引值進行合并,得到所述稀疏特征的壓縮表示數(shù)組的步驟,包括:
針對所述非零特征數(shù)組中的每個非零特征值,根據(jù)所述索引分段數(shù)據(jù),獲取所述非零特征值對應(yīng)的索引值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910818105.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于WLAN網(wǎng)絡(luò)的數(shù)據(jù)壓縮傳輸方法、STA及AP
- 一種數(shù)據(jù)壓縮存儲方法、裝置,及分布式文件系統(tǒng)
- 數(shù)據(jù)傳輸、數(shù)據(jù)接收方法及裝置
- 一種數(shù)據(jù)壓縮存儲方法以及數(shù)據(jù)壓縮存儲裝置
- 數(shù)據(jù)的傳輸方法、數(shù)據(jù)傳輸裝置及計算機可讀存儲介質(zhì)
- 數(shù)據(jù)壓縮系統(tǒng)、有損數(shù)據(jù)壓縮的方法和數(shù)據(jù)壓縮的方法
- 數(shù)據(jù)壓縮方法、數(shù)據(jù)壓縮系統(tǒng)以及采用該系統(tǒng)的車輛ECU
- 數(shù)據(jù)壓縮方法、裝置、電子設(shè)備及計算機可讀介質(zhì)
- 口授系統(tǒng)
- 具有幾個數(shù)據(jù)壓縮信道的數(shù)據(jù)壓縮組件
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





