[發明專利]一種識別PDF文件中的空格的方法有效
| 申請號: | 201210455707.2 | 申請日: | 2012-11-14 |
| 公開(公告)號: | CN103810148A | 公開(公告)日: | 2014-05-21 |
| 發明(設計)人: | 周美玲 | 申請(專利權)人: | 福建福昕軟件開發股份有限公司北京分公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京科龍寰宇知識產權代理有限責任公司 11139 | 代理人: | 孫皓晨 |
| 地址: | 100098 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 pdf 文件 中的 空格 方法 | ||
技術領域
本發明涉及識別PDF文件中的字符的技術領域,特別是涉及一種識別PDF文件中的空格的方法。
背景技術
在將PDF文件轉換為其他格式(如WORD、TXT等格式)的文件時,都要對PDF文件中的字符進行識別,尤其是要對相鄰字符間的空格進行判斷,從而順利地組詞和斷句。
PDF文件中,相鄰字符間空隙的產生有兩個原因,一是因為存在空格所以產生空隙,二是因為版面設置了字符間距所以產生空隙。現有的識別PDF文件中的空格的技術,是判斷每對相鄰字符之間的距離是否小于預知的空格寬度,是則判斷該對相鄰字符之間不存在空格,否則判斷該對相鄰字符間存在空格,進而在轉換后的文件中在該對相鄰字符之間設置空格。
現有技術的缺點在于:當PDF文件中的字符間距設置得過大,例如其大于空格寬度時,該技術會將所有只存在字符間距而沒有空格的空隙全部判斷為存在空格,這樣就會造成組詞和斷句的大量錯誤,嚴重影響格式轉換的質量。一個簡單的示例如圖1所示,該圖中由兩個單詞“Character”和“spacing”組成了連貫的“Character?spacing”詞組,但僅在“Character”最后的“r”字符和“spacing”中的“s”字符之間存在空格(該空隙實際上是一個空格與一個字符間距的疊加),其余的相鄰字符之間的空隙全部為字符間距,但是由于該字符間距要大于空格寬度,因而利用現有技術識別后,這個詞組將在轉換后的文件中變成包括16個字母字符和15個空格的字符串“Characterspacing”,從而造成嚴重的轉換失誤。
發明內容
本發明所要解決的技術問題是提供一種識別PDF文件中的空格的方法,能提高相鄰字符之間是否存在空格的判斷準確率。
本發明解決上述技術問題的技術方案如下:一種識別PDF文件中的空格的方法,該方法包括:
步驟1:遍歷所述PDF文件,記錄各對相鄰字符之間的距離;
步驟2:確定各對相鄰字符之間的距離中的最小值h;
步驟3:用各對相鄰字符之間的距離減去h,得到各對相鄰字符之間的相對距離;
步驟4:依次判斷各對相鄰字符之間的相對距離是否小于預知的空格寬度,是則該對相鄰字符之間的空隙不是空格,否則,該對相鄰字符之間的空隙包括空格。
本發明的有益效果是:本發明通過便利PDF文件,記錄各對相鄰字符之間的距離,進而確定各對相鄰字符之間的距離中的最小值h,將其作為字符間距的標準,這是因為,相鄰字符間的空隙只能為一個字符間距組成,或者由一個字符間距與一個以上的空格組成,因而字符間距h是相鄰字符間的距離的最小值。本發明用各對相鄰字符之間的距離減去h,得到各對相鄰字符之間的相對距離,該相對距離或者小于空格寬度,這是該對相鄰字符之間不存在空格的情形,或者不小于空格寬度,這是該對相鄰字符之間存在空格的情形。因此,本發明通過依次判斷各對相鄰字符之間的相對距離是否小于預知的空格寬度,即可剔除相鄰字符之間的空隙為字符間距的情形,準確確定各對相鄰字符之間的空隙是否為空格,從而大大提高相鄰字符之間是否存在空格的判斷準確率。
在上述技術方案的基礎上,本發明還可以做如下改進:
進一步,在所述步驟4之后,還包括步驟5:將二者之間的空隙包括空格的相鄰字符稱為包含空格的相鄰字符;用各對所述包含空格的相鄰字符之間的相對距離除以所述空格寬度,將得到的商值的整數部分作為該對所述包含空格的相鄰字符之間的空格的數量。
附圖說明
圖1為字符間距過大的PDF文件的示意圖;
圖2為本發明提出的識別PDF文件中的空格的方法的流程圖。
具體實施方式
以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。
圖2為本發明提出的識別PDF文件中的空格的方法的流程圖。這里,PDF是PortableDocument?Format的縮寫,意為便攜文件格式,是一種電子文件格式,PDF文件指的是采用PDF格式的電子文件。本發明中,PDF文件中的字符可以為字母、數字、漢字、空格、標點等一切可以采用的字符形式。
如圖2所示,該方法包括:
步驟201:遍歷PDF文件,記錄各對相鄰字符之間的距離。
本步驟中的“遍歷”是一種計算機運算形式,指的是沿著某條搜索路線,依次對樹中每個結點均做一次且僅做一次訪問。遍歷的方法以及上述的“樹”的概念屬于計算機領域的公知常識,在此不做贅述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建福昕軟件開發股份有限公司北京分公司,未經福建福昕軟件開發股份有限公司北京分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210455707.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:生成單據的方法及系統
- 下一篇:計算機集群、用于計算機集群的管理方法及系統





