[發(fā)明專利]拆分文檔的方法和裝置有效
| 申請?zhí)枺?/td> | 201110168241.3 | 申請日: | 2011-06-21 |
| 公開(公告)號: | CN102841886A | 公開(公告)日: | 2012-12-26 |
| 發(fā)明(設(shè)計)人: | 岳永強 | 申請(專利權(quán))人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/25 | 分類號: | G06F17/25;G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達佐 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 拆分 文檔 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及印刷領(lǐng)域,具體而言,涉及一種拆分文檔的方法和裝置。
背景技術(shù)
圖書通常由主書名頁、文前輔文、正文、文中輔文和文后輔文這幾個部分組成。其中,正文由篇、章和節(jié)組成。通過對圖書數(shù)字化處理,可將圖書以電子文檔的形式保存。
在圖書出版前,需要對圖書進行編纂。由于圖書是由多個部分組成,在編纂過程中,可將各個部分由不同的作者編纂。例如,將含有一本圖書內(nèi)容的文檔進行拆分,拆分為三個文檔,再將三個文檔交給三個不同的作者處理,如審校、修改或排版等。
目前對文檔進行拆分的過程,采用人工的方式進行拆分。這種拆分方式存在效率低、時間長的問題,影響了圖書的出版時間。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種拆分文檔的方法和裝置,以解決上述人工拆分文檔效率低、時間長的問題。
在本發(fā)明的實施例中,提供了一種拆分文檔的方法,包括:解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個段落樣式的段落位置;將所述查找到的各個段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。
在本發(fā)明的實施例中,提供了一種拆分文檔的裝置,包括:解析模塊,用于解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件;查找模塊,用于在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個段落樣式的段落位置;拆分模塊,用于將所述查找到的各個段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。
本發(fā)明的實施例通過解析原始文檔的內(nèi)容文件和段落樣式文件,通過段落樣式文件中段落樣式對內(nèi)容文件中的內(nèi)容進行拆分,提取出的內(nèi)容存儲到新的文檔中。所以克服了人工直接從文檔中提取內(nèi)容,拆分成新的文檔效率較低的問題,達到了高效、快捷的效果。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1示出了本發(fā)明實施例一的流程圖;
圖2示出了本發(fā)明實施例二的流程圖;
圖3示出了本發(fā)明實施例中所顯示的內(nèi)容文件的屏幕截圖;
圖4示出了本發(fā)明實施例中所顯示的段落樣式文件的屏幕截圖;
圖5示出了本發(fā)明實施例三的流程圖;
圖6示出了本發(fā)明實施例中所顯示的實例文件的屏幕截圖;
圖7示出了本發(fā)明實施例中所顯示的大綱文件的屏幕截圖;
圖8示出了本發(fā)明實施例四的裝置結(jié)構(gòu)框圖。
具體實施方式
下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。參見圖1,實施例一包括以下步驟:
步驟S11:解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件。
原始文檔是由多個文件組成,至少包括記錄原始文檔中存儲的字數(shù)數(shù)據(jù)的xml格式的內(nèi)容文件,規(guī)定字符數(shù)據(jù)顯示的段落結(jié)構(gòu)樣式存儲在xml格式的段落樣式文件中。如word格式的文檔,通過壓縮/解壓算法,可提取出xml格式的內(nèi)容文件和段落樣式文件。
步驟S12:在所述內(nèi)容文件中,查找應(yīng)用所述段落樣式文件中的每個段落樣式的段落位置。
步驟S13:將所述查找到的各個段落位置處的段落內(nèi)容分別輸出到不同的新文檔中。
通過在內(nèi)容文件中按照各個段落樣式查找的段落位置,將原始文檔分為各個不同的新的文檔。由于不同的段落樣式體現(xiàn)了文檔的結(jié)構(gòu),通過段落樣式拆分文檔,可將原始文檔規(guī)范的拆分為多個文檔,且處理時間短,效率高。
各個不同的新文檔采用不同的段落樣式結(jié)構(gòu),以便于后續(xù)的處理、編纂。
在內(nèi)容文件中查找段落樣式文件中的各個段落樣式、以及輸出文檔的過程,可有多種不同的方式,下面給出優(yōu)選的方式并通過實施例二說明,參見圖2,包括以下步驟:
S21:解析出原始文檔的xml格式的內(nèi)容文件和段落樣式文件。
S22:在所述內(nèi)容文件中遍歷所述段落樣式文件中的每個段落樣式所對應(yīng)的段落樣式ID。
內(nèi)容文件存在的段落樣式ID與段落樣式文件中的段落樣式具有對應(yīng)關(guān)系。
參見圖3、圖4所示的內(nèi)容文件、段落樣式文件的屏幕截圖,圖3中所示的ID為<w:P?style?w:val=“1”/>,說明段落樣式ID為“1”,該段落樣式ID對應(yīng)圖4中的段落樣式名稱為“章標題”的段落樣式。參見圖4的屏幕截圖上所示的命令參數(shù):
<w:style?w:type??=“paragraph”w:styleid=“1”/>,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經(jīng)北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110168241.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種取放料組件
- 下一篇:泡沫填充材料的塑型系統(tǒng)和塑型方法





