[發明專利]一種排版方法和系統有效
| 申請號: | 201710013265.9 | 申請日: | 2017-01-09 |
| 公開(公告)號: | CN106874242B | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 蘭濤 | 申請(專利權)人: | 廣西英騰教育科技股份有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/103;G06F40/189 |
| 代理公司: | 11212 北京輕創知識產權代理有限公司 | 代理人: | 楊立;付倩 |
| 地址: | 545006 廣西壯族自治區柳州市柳*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 排版 方法 系統 | ||
本發明提供一種排版方法和系統,方法包括:根據排版要求將待處理的文本拆分成單字符或字符串;對單字符或字符串進行索引,索引時判斷單字符或字符串是否符合設置的正則表達式,并將判斷結果分別用設置的標識符標記;將判斷得到的各個標識符進行存儲;遍歷各個標識符來對單字符進行替換處理或遍歷各個標識符來對字符串之間的文本進行合并處理。本發明能夠根據排版要求將文檔中的文本拆分成單字符或字符串的形式,再利用設置的正則表達式對單字符或字符串進行判定,用標識符進行標記,再根據標識符對文本內容進行重新排版,極大的減少不規范的情況,也減輕了錄入員的工作壓力和難度。
技術領域
本發明主要涉及數字排版技術領域,具體涉及一種排版方法和系統。
背景技術
掃描文檔內容進行二次排版時,掃描到的原始內容格式存在著不規范的情況,不符合數字化排版的要求,例如:1、行后空格;2、題干、選項的行前空格;3、多余回車符。
目前,在紙質文檔轉化成數字文檔時,錄入者掃描紙質文檔成數字化文檔后,由于存在上述不規范情況,一般的處理方式是人工逐一進行規范排版處理,因此需要耗費大量時間精力去完成這件事,效率低且容易出錯,而現有的一些自動排版方法處理的“不規范”情況比較單一且效果不佳。
發明內容
本發明所要解決的技術問題是針對上述現有技術的不足,提供一種排版方法和系統,能夠根據排版要求及設置的正則表達式對文檔中不規范的情況進行排版,大大減輕錄入員的工作壓力和難度。
本發明解決上述技術問題的技術方案如下:一種排版方法,包括如下步驟:
根據排版要求將待處理的文本拆分成單字符或字符串;
將拆分的單字符用第一數組進行存儲或將拆分的字符串用第二數組進行存儲;
對第一數組中的單字符或第二數據組中的字符串進行索引,索引時判斷單字符或字符串是否符合設置的正則表達式,并將判斷結果分別用設置的標識符標記;
將判斷第一數組得到的各個標識符用第三數組進行存儲或將判斷第二數組得到的各個標識符用第四數組進行存儲;
遍歷第三數組中的各個標識符來對單字符進行替換處理或遍歷第四數組中的各個標識符來對字符串之間的文本進行合并處理。
本發明的有益效果是:能夠根據排版要求將文檔中的文本拆分成單字符或字符串的形式,再利用設置的正則表達式對單字符或字符串進行判定,用標識符進行標記,再根據標識符對文本內容進行重新排版,極大的減少不規范的情況,也減輕了錄入員的工作壓力和難度。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述索引時判斷單字符是否符合設置的正則表達式,將判斷結果分別用設置的標識符標記的具體方法為:
預先設置第一正則表達式,并預先設置標識符:標識符An和標識符0n;
對第一數組中的單字符進行索引時,先判斷當前索引的單字符是否為空字符,如果該單字符是空字符再判斷該單字符的前一個索引的單字符與后一個索引的單字符是否符合設置的第一正則表達式,如果前一個索引的單字符與后一個索引的單字符均不符合第一正則表達式則用標識符0n標記該單字符,否則標記為An。
進一步,進行替換處理的具體方法為:將標記有標識符0n的單字符用預設的占位符進行替換處理。
進一步,判斷當前索引的單字符是否為空字符的具體方法為:判斷單字符的長度是否為0,如果為0則為空字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西英騰教育科技股份有限公司,未經廣西英騰教育科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710013265.9/2.html,轉載請聲明來源鉆瓜專利網。





