[發明專利]一種基于不定長標識碼的XML的壓縮方法和裝置有效
| 申請號: | 201310580015.5 | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103605730A | 公開(公告)日: | 2014-02-26 |
| 發明(設計)人: | 龔如賓;張煉珠 | 申請(專利權)人: | 山西三恒自動化設備有限公司;上海理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 太原高欣科創專利代理事務所(普通合伙) 14109 | 代理人: | 冷錦超;鄧東東 |
| 地址: | 030006 山西省太原市*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 定長 標識 xml 壓縮 方法 裝置 | ||
技術領域
本發明涉及數據業務技術領域,特別涉及一種XML的壓縮方法和裝置。
背景技術
可擴展標記語言(XML,Extensible?Markup?Language)?作為一種跨平臺的標準數據交換格式而廣泛應用于數字書籍格式表示、數據交換和存儲等方面,是當前處理結構化文檔信息的有力工具。由于XML?文檔中包含大量重復出現的標簽和結構信息,所以在XML?文檔中包含大量的重復標簽和結構信息,使其存儲、傳輸的成本增加,在一定程度上阻礙了XML?應用的發展,特別在帶寬和資源受限的移動設備上顯得尤其突出。因此在數字書籍的移動閱讀等很多應用中需要對XML文件進行壓縮。盡管XML?文檔可以采用通用文本壓縮技術(如Gzip,?Bzip2,?WinZip?等)進行壓縮,但這樣會喪失XML文件固有的優勢(如結構特征、語義特征等)。利用XML文件固有冗余特性來進行壓縮成為當前研究的熱點,常用的XML壓縮方法有XMILL、XMLPPM、XWRT?等,但這些壓縮算法對CPU?運算能力的要求較高,這個對于手機移動應用來說是一個瓶頸,因為在移動應用中,需要以低運算量來對XML文件進行壓縮和解壓。
公開號為:102096704A,發明名稱為:一種XML的壓縮方法和裝置的發明專利申請公開一種XML的壓縮方法和裝置,起技術方案為:對于XML文檔中的每一個元素,?在數據字典中定義一個與之相對應的字節;以及對于XML文檔中的每一個屬性,在數據字典中定義一個與之相對應的字節。上述方法能夠高速地壓縮XML文檔,但是由于分配給元素名的比特位數只有5位,最多只能表示32個元素名;分配給屬性名的比特位數只有6位,最多只能表示64個屬性名,這在版式電子書籍的表示中遠遠不夠,因為版式電子書籍要表示文檔的幾何版面結構和邏輯版面結構,往往需要表示上百個元素名和屬性名。
發明內容
本發明克服現有技術存在的不足,提供一種使用不定長標識碼來替換表示XML文檔中的元素和屬性的壓縮方法,實現低負荷、高效地壓縮含有大量元素和屬性的XML文檔。
為實現上述發明目的,本發明提供一種基于不定長標識碼的XML的壓縮方法,該方法包括:
對于XML文檔中的每一個元素,在數據字典中定義一個與之相對應的不定長標識碼;以及對于XML文檔中的每一個屬性,在數據字典中定義一個與之相對應的不定長標識碼;
發送方使用所述數據字典中定義的對應不定長標識碼逐個替換XML文檔中的元素和屬性,實現XML文檔的替換壓縮;?
接收方根據所述數據字典中定義的與相應不定長標識碼對應的元素和屬性替換所接收到的替換壓縮后的XML文檔中的不定長標識碼,實現XML文檔的解壓;
所述對于XML文檔中的每一個元素,在數據字典中定義一個與之相對應的不定長標識碼;以及對于XML文檔中的每一個屬性,在數據字典中定義一個與之相對應的不定長標識碼包括:
對于XML文檔中的每一個元素,采用8位比特位標識碼表示,或是采用16位比特位標識碼表示;其中高4位中的第1位用于判斷是否為XML格式,第2位用于判斷是否為元素,第3位用于判斷是否為結束元素,第4位用于判斷是否需要使用兩個8位的字節來表示同一元素,剩余的比特位用于表示該元素;
對于XML文檔中的每一個屬性,采用8位比特位標識碼表示,或是采用16位比特位標識碼表示;其中高3位中的第1位用于判斷是否為XML格式,第2位用于判斷是否為屬性,第3位用于判斷是否需要使用兩個8位的字節來表示同一屬性,剩余的比特位用于表示該屬性,其中屬性的值以字符串格式表示。
在所述數據字典中,對于XML文檔中的每一個元素,采用頻度分析法來決定采用8位比特位標識碼表示,或是采用16位比特位標識碼表示。
在所述數據字典中,對于XML文檔中的每一個元素,采用耗費字節數分析法來決定采用8位比特位標識碼表示,或是采用16位比特位標識碼表示。
在所述數據字典中,對于XML文檔中的每一個屬性,采用頻度分析法來決定采用8位比特位標識碼表示,或是采用16位比特位標識碼表示。
在所述數據字典中,對于XML文檔中的每一個屬性,采用耗費字節數分析法來決定采用8位比特位標識碼表示,或是采用16位比特位標識碼表示。
本發明還提供了一種XML的壓縮裝置,該裝置包括:XML讀取模塊、壓縮用數據字典存儲模塊、標簽替換壓縮模塊和通用壓縮模塊;其中:
XML讀取模塊,用于讀取XML字節流數據;
壓縮用數據字典存儲模塊,用于保存數據字典;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西三恒自動化設備有限公司;上海理工大學,未經山西三恒自動化設備有限公司;上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310580015.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:內外置通用的車燈
- 下一篇:一種基于2.4G無線通訊的電梯緊急報警對講裝置





