[發明專利]壓縮裝置、壓縮方法、詞典生成裝置、詞典生成方法、解壓裝置、解壓方法、解壓程序以及信息處理系統在審
| 申請號: | 201380074814.3 | 申請日: | 2013-03-22 |
| 公開(公告)號: | CN105052041A | 公開(公告)日: | 2015-11-11 |
| 發明(設計)人: | 村松千織;西澤信一郎;片岡正弘;出內將夫 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | H03M7/40 | 分類號: | H03M7/40 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 舒艷君;李洋 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 壓縮 裝置 方法 詞典 生成 解壓 程序 以及 信息處理 系統 | ||
技術領域
本發明涉及數據的壓縮技術或者解壓技術的至少一方。
背景技術
在使用了哈夫曼編碼、算術壓縮等可變長度壓縮編碼的壓縮算法中,對壓縮編碼的分配對象的字符信息組,字符信息組所包含的每個字符信息分配與出現頻率等統計信息相應的長度的壓縮編碼。在哈夫曼編碼的壓縮算法中,基于字符信息組所包含的字符信息間的出現頻率的大小比較來進行壓縮編碼的生成。在算術壓縮中,生成基于字符信息組整體的各字符信息的出現比例確定的編碼長度的壓縮編碼。在這些壓縮算法中,出現頻率越高的字符信息越分配較短的壓縮編碼,從而短的壓縮編碼的使用頻率升高,所以壓縮數據整體的壓縮率提高。
哈夫曼編碼、算術壓縮等壓縮算法中的可變長度壓縮編碼的分配對象是字符、數字等符號。另外,存在對壓縮編碼的分配對象進行擴長,對作為符號的組合的單詞、標簽等字符串分配可變長度壓縮編碼的技術。在該情況下,由于對多個符號的組合分配一個壓縮編碼,所以壓縮率提高(例如,參照專利文獻1)。
現有技術文獻
專利文獻
專利文獻1:日本特開2010-93414號公報
專利文獻2:日本特開平05-241777號公報
發明內容
發明要解決的課題
文檔數據由作為字符、數字等符號的組合的單詞、標簽等字符串構成。文檔數據內的各字符串分別與特定的含義、語法上的功能等概念對應,但即使是與通用的概念對應的字符串,彼此也存在符號的組合(書寫)不同,所謂的書寫差異。作為書寫差異的例子,可舉出動詞、形容詞等活用詞的活用、同義詞、近義詞等。
在對單詞、標簽等字符串的可變長度壓縮編碼的分配中,越是出現頻率較高的字符信息越分配較短的壓縮編碼。若產生書寫相互不同的多個字符串(多個種類的字符串)與一個概念對應的書寫差異,則與1種字符串與一個概念對應的沒有書寫差異的情況下的字符串的出現頻率相比,多個種類的字符串的每一種的出現頻率降低。因此,對多個種類的字符串的每一種分配的壓縮編碼變長,而成為壓縮率降低的重要因素。
根據本發明的一個側面,目的在于抑制由書寫差異的存在引起的壓縮率的降低。
用于解決課題的手段
根據一個實施方式,壓縮裝置包含:存儲部,其存儲對相互不同的多個字符信息分配的第一壓縮編碼與上述多個字符信息的每一個相關聯的詞典信息;獲取部,其在獲取了上述多個字符信息中的第一字符信息的情況下,從上述詞典信息中獲取與上述第一字符信息相關聯的上述第一壓縮編碼;以及寫入部,其將獲取的上述第一壓縮編碼寫入儲存壓縮數據的儲存區域。
根據一個實施方式,解壓裝置包含:存儲部,其存儲使對相互不同的多個字符信息通用地分配的第一壓縮編碼和與上述多個字符信息對應的第一字符信息相關聯的詞典信息;獲取部,其在從壓縮數據中獲取了上述第一壓縮編碼的情況下,從上述詞典信息中獲取在上述詞典信息中與上述第一壓縮編碼相關聯的上述第一字符信息;以及寫入部,其將獲取的上述第一字符信息寫入儲存上述壓縮數據的解壓結果的儲存區域。
根據一個實施方式,信息處理系統是包含存儲有壓縮數據的存儲裝置、和執行與針對上述壓縮數據的處理請求相應的處理的處理裝置的信息處理系統,上述處理裝置包含:存儲部,其存儲使對相互不同的多個字符信息分配的第一壓縮編碼與上述多個字符信息的每一個相關聯的詞典信息;讀出部,其根據上述處理請求,從上述存儲裝置中讀出上述壓縮數據;第一獲取部,其在從上述壓縮數據中獲取了上述第一壓縮編碼的情況下,從上述詞典信息中獲取在上述詞典信息中與上述第一壓縮編碼相關聯的第一字符信息;第一寫入部,其將獲取的上述第一字符信息寫入儲存上述壓縮數據的解壓結果的第一儲存區域;處理部,其對被儲存至上述第一儲存區域的解壓結果執行與上述處理請求相應的處理;第二獲取部,其在從進行了與上述處理請求相應的處理的數據中獲取了上述第一字符信息的情況下,根據上述詞典信息獲取與上述第一字符信息相關聯的上述第一壓縮編碼;第二寫入部,其將獲取的上述第一壓縮編碼寫入第二儲存區域;以及儲存部,其將被寫入上述第二區域的數據儲存至上述存儲裝置。
根據一個實施方式,詞典生成裝置包含:分配部,其對與相互不同的多個字符信息對應的1種通用字符信息進行壓縮編碼的分配處理;以及生成部,其生成使對上述通用字符信息分配的第一壓縮編碼與上述相互不同的多個字符信息的每一個相關聯的詞典信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380074814.3/2.html,轉載請聲明來源鉆瓜專利網。





