[發明專利]一種文檔內容流式解析方法及系統有效
| 申請號: | 202011159801.4 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112001164B | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 殷博;潘飚;馮靜 | 申請(專利權)人: | 南京中孚信息技術有限公司;中孚安全技術有限公司;中孚信息股份有限公司;北京中孚泰和科技發展股份有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205 |
| 代理公司: | 南京中盟科創知識產權代理事務所(特殊普通合伙) 32279 | 代理人: | 江冬萍 |
| 地址: | 210000 江蘇省南京市浦口區江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 內容 解析 方法 系統 | ||
本發明公開了一種文檔內容流式解析方法及系統,該方法包括以下步驟:S1、讀取文件數據,并完成目錄掃描;S2、判斷文件類型,并實現對不同類型文件的分類;S3、根據文件類型調用對應的解析器對對應文件進行解析。本發明的有益效果為:本發明首先根據文件結構的不同將文件做出分類,分為結構化文件、文本類文件和壓縮文件;將每個文件進行分塊處理,本發明提出文檔內容流式解析方法,該方法每次只加載一部分數據進行處理,對于不同類型的文件使用不同的處理方法,同時使用狀態機對整個處理過程進行控制;每種類型文件的內部流式處理方式不相同,但是對于文件解析的整個流程是相同的。
技術領域
本發明涉及文檔內容解析技術領域,具體來說,涉及一種文檔內容流式解析方法及系統。
背景技術
隨著大數據時代的到來,通過互聯網傳輸的文件數量大大增加,互聯網上充斥這各種文本文件、視頻文件、音頻文件等。其中在文本文件中除了普通的文件外還有大量的電子公文。這些電子公文中可能存在一些涉密文件,而公文作為黨政機關進行日期工作的主要方式,是涉密文件最主要的來源。同樣在非涉密設備中也有可能出現涉密文件。為確保國家保密工作的安全,從網絡和主機設備里的海量文件中檢查出涉密公文刻不容緩。文件解析是文件檢查過程中的首要環節。
目前文檔解析的方法是將整個文件讀取到內存中,先進行文件類型的判斷,再通過不同的文件解析器進行處理。缺點一:對于網絡傳輸的文件,要先把文件保存在設備的磁盤上,然后再讀取到內存中,對于文件檢查有一定的滯后性。缺點二:大文件處理。對于大文件的處理,如果將大文件一次加載進內存會導致解析進程占用內存過大,處理過程中也會占用過多的CPU資源,使設備出現卡頓的現象,影響設備使用者的其他操作和使用。缺點三:壓縮文件處理。壓縮文件是一類特殊文件,可以包含多個文件或者文件夾,也可以包含壓縮文件,形成嵌套多層的壓縮文件,嵌套層數過多的話,一次性加載不僅占用大量內存,也會使文件解析的處理性能降低。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的問題,本發明提出一種文檔內容流式解析方法及系統,以克服現有相關技術所存在的上述技術問題。
為此,本發明采用的具體技術方案如下:
根據本發明的一個方面,提供了一種文檔內容流式解析方法,該方法包括以下步驟:
S1、讀取文件數據,并完成目錄掃描;
S2、判斷文件類型,并實現對不同類型文件的分類;
S3、根據文件類型調用對應的解析器對對應文件進行解析。
進一步的,所述讀取文件數據,并完成目錄掃描還包括以下步驟:
S11、在配置文件中預先配置長度規則;
S12、讀取文件數據塊。
進一步的,所述判斷文件類型,并實現對不同類型文件的分類還包括以下步驟:
S21、對文件特征串進行檢查;
S22、對文件類型進行檢測。
進一步的,所述文件類型包括結構化文件、文本類文件及壓縮文件。
進一步的,所述根據文件類型調用對應的解析器對結構化文件進行解析包括以下步驟:
S31、文件頭解析,根據文件頭結構定義,通過數據偏移解析出文件頭信息;
S32、繼續讀入數據;
S33、通過循環讀取和數據處理實現對主扇區分配表的解析;
S34、通過循環讀取和數據處理實現對扇區分配表、目錄流及表流的解析;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中孚信息技術有限公司;中孚安全技術有限公司;中孚信息股份有限公司;北京中孚泰和科技發展股份有限公司,未經南京中孚信息技術有限公司;中孚安全技術有限公司;中孚信息股份有限公司;北京中孚泰和科技發展股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011159801.4/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





