[發(fā)明專利]一種文檔內(nèi)容流式解析方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011159801.4 | 申請(qǐng)日: | 2020-10-27 |
| 公開(公告)號(hào): | CN112001164B | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計(jì))人: | 殷博;潘飚;馮靜 | 申請(qǐng)(專利權(quán))人: | 南京中孚信息技術(shù)有限公司;中孚安全技術(shù)有限公司;中孚信息股份有限公司;北京中孚泰和科技發(fā)展股份有限公司 |
| 主分類號(hào): | G06F40/205 | 分類號(hào): | G06F40/205 |
| 代理公司: | 南京中盟科創(chuàng)知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32279 | 代理人: | 江冬萍 |
| 地址: | 210000 江蘇省南京市浦口區(qū)江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 內(nèi)容 解析 方法 系統(tǒng) | ||
1.一種文檔內(nèi)容流式解析方法,其特征在于,該方法包括以下步驟:
S1、讀取文件數(shù)據(jù),并完成目錄掃描;
S2、判斷文件類型,并實(shí)現(xiàn)對(duì)不同類型文件的分類;
S3、根據(jù)文件類型調(diào)用對(duì)應(yīng)的解析器對(duì)對(duì)應(yīng)文件進(jìn)行解析;
其中,所述文件類型包括結(jié)構(gòu)化文件、文本類文件及壓縮文件;
所述結(jié)構(gòu)化文件中包含但不限于主扇區(qū)分配表、扇區(qū)分配表、短扇區(qū)分配表、目錄流和表流結(jié)構(gòu),主扇區(qū)分配表中記錄了扇區(qū)分配表所在扇區(qū)的ID,扇區(qū)分配表中記錄了各種流所在扇區(qū)的ID;
其中,所述根據(jù)文件類型調(diào)用對(duì)應(yīng)的解析器對(duì)結(jié)構(gòu)化文件進(jìn)行解析包括以下步驟:
S31、文件頭解析,根據(jù)文件頭結(jié)構(gòu)定義,通過數(shù)據(jù)偏移解析出文件頭信息;
S32、繼續(xù)讀入數(shù)據(jù);
S33、通過循環(huán)讀取和數(shù)據(jù)處理實(shí)現(xiàn)對(duì)主扇區(qū)分配表的解析;
S34、通過循環(huán)讀取和數(shù)據(jù)處理實(shí)現(xiàn)對(duì)扇區(qū)分配表、目錄流及表流的解析;
S35、根據(jù)目錄流起始位置和長(zhǎng)度、表流起始位置和長(zhǎng)度實(shí)現(xiàn)對(duì)文件中文本的提取;
其中,所述根據(jù)文件類型調(diào)用對(duì)應(yīng)的解析器對(duì)文本類文件進(jìn)行解析包括以下步驟:
S31’、讀入文件數(shù)據(jù);
S32’、文本提取;
S33’、繼續(xù)讀入文件數(shù)據(jù);
S34’、重復(fù)步驟S32’、S33’及S34’,直到解析完成;
其中,所述根據(jù)文件類型調(diào)用對(duì)應(yīng)的解析器對(duì)壓縮文件進(jìn)行解析包括以下步驟:
S31”、創(chuàng)建臨時(shí)目錄;
S32”、讀入文件數(shù)據(jù);
S33”、使用壓縮算法對(duì)數(shù)據(jù)進(jìn)行解壓;
S34”、繼續(xù)讀入數(shù)據(jù);
S35”、重復(fù)步驟S33”及S34”,直到文件解壓縮完成;
S36”、掃描臨時(shí)目錄,緩存所有的文件路徑;
S37”、對(duì)解析結(jié)果進(jìn)行合并。
2.根據(jù)權(quán)利要求1所述的一種文檔內(nèi)容流式解析方法,其特征在于,所述讀取文件數(shù)據(jù),并完成目錄掃描還包括以下步驟:
S11、在配置文件中預(yù)先配置長(zhǎng)度規(guī)則;
S12、讀取文件數(shù)據(jù)塊。
3.根據(jù)權(quán)利要求1所述的一種文檔內(nèi)容流式解析方法,其特征在于,所述判斷文件類型,并實(shí)現(xiàn)對(duì)不同類型文件的分類還包括以下步驟:
S21、對(duì)文件特征串進(jìn)行檢查;
S22、對(duì)文件類型進(jìn)行檢測(cè)。
4.根據(jù)權(quán)利要求1所述的一種文檔內(nèi)容流式解析方法,其特征在于,所述結(jié)構(gòu)化文件為有分層結(jié)構(gòu)特征的文件,所述結(jié)構(gòu)化文件包括但不局限于word文件與pdf文件;所述文本類文件包括但不限于文本文件、可擴(kuò)展標(biāo)記語言及超級(jí)文本標(biāo)記語言;所述壓縮文件包括但不局限于zip文件、rar文件及tar文件。
5.一種文檔內(nèi)容流式解析系統(tǒng),以實(shí)現(xiàn)權(quán)利要求1-4中任一項(xiàng)所述的文檔內(nèi)容流式解析方法的步驟,其特征在于,該系統(tǒng)包括:
文件IO,用于讀取文件數(shù)據(jù),并完成目錄掃描;
分類器,用于判斷文件類型,并實(shí)現(xiàn)對(duì)不同類型文件的分類;
解析器,用于根據(jù)文件類型調(diào)用對(duì)應(yīng)的解析器對(duì)對(duì)應(yīng)文件進(jìn)行解析。
6.根據(jù)權(quán)利要求5所述的一種文檔內(nèi)容流式解析系統(tǒng),其特征在于,所述文件類型包括結(jié)構(gòu)化文件、文本類文件及壓縮文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京中孚信息技術(shù)有限公司;中孚安全技術(shù)有限公司;中孚信息股份有限公司;北京中孚泰和科技發(fā)展股份有限公司,未經(jīng)南京中孚信息技術(shù)有限公司;中孚安全技術(shù)有限公司;中孚信息股份有限公司;北京中孚泰和科技發(fā)展股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011159801.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





