[發(fā)明專利]從可移植電子文檔中提取字符外接矩形的設(shè)備和方法有效
| 申請?zhí)枺?/td> | 200910249849.1 | 申請日: | 2009-11-27 |
| 公開(公告)號(hào): | CN102081594A | 公開(公告)日: | 2011-06-01 |
| 發(fā)明(設(shè)計(jì))人: | 徐文暉;杜成;長谷川史裕;井上浩一 | 申請(專利權(quán))人: | 株式會(huì)社理光 |
| 主分類號(hào): | G06F17/21 | 分類號(hào): | G06F17/21 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 移植 電子 文檔 提取 字符 外接 矩形 設(shè)備 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明提供一種從可移植電子文檔中提取字符外接矩形的設(shè)備和方法,更具體地說,本發(fā)明涉及一種在字體需要替換的情況下從可移植電子文檔中提取字符外接矩形的設(shè)備和方法。
背景技術(shù)
可移植的電子文檔,如PDF(Portable?Document?Format,便攜式文檔格式)、PS(PostScript),在日常辦公室工作中被廣泛應(yīng)用。但是從可移植電子文檔中提取特定信息還是困難的工作,比如,Adobe?Acrobat能從PDF文檔中提取字符外接矩形,但提取結(jié)果有時(shí)并不能令人滿意,其原因在于,如果PDF中的某種字體不可用即缺乏字形度量信息,則無法提取該字體的字符的外接矩形。
已經(jīng)存在的字體替換算法主要關(guān)注于字符的柵格化,尋找視覺上相似的字體。但是這些算法并不適用于字符外接矩形的提取。字符外接矩形提取需要尋找在字形度量上相似的字體,而不是視覺上相似。
美國專利6801673B2提供用來提取PDF文檔中的詞的方法。該專利通過查找文本段中的詞分隔字符(空格)來提取詞,或者通過判斷相鄰文本段之間的距離,如果該距離大于某門限值,則相鄰的文本段被分為兩個(gè)詞。該專利的輸入是PDF文檔,輸出是該文檔所包含的詞的集合。
美國專利5859648提供了一種用于計(jì)算機(jī)的字體替換方法。該方法主要尋找與被替換字體視覺外形上相似的字體,目的是為了字符的柵格化。該專利首先在字體列表中查找選擇一個(gè)相似的字體,然后調(diào)整整體字體寬度以避免字符在視覺外觀上的改變;其中,相似字體的選擇是根據(jù)字體視覺外觀的相似性進(jìn)行評(píng)分,沒有考慮字形度量上的相似性。對(duì)于字符外接矩形的提取,需要尋找在字形度量上相似的字體,而不是視覺上相似的字體,因此該專利的字體替換算法對(duì)于字符外接矩形提取沒有效果。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的上述問題而作出本發(fā)明,本發(fā)明針對(duì)可移植電子文檔中存在某些字體缺乏字形度量信息的情況,提出了一種通過字體替換來從可移植電子文檔中提取字符外接矩形的設(shè)備和方法。字符的外接矩形也可以稱為字符的最小外接矩形。本發(fā)明屬于文檔處理領(lǐng)域,可應(yīng)用于文檔內(nèi)容提取、文檔重用以及文檔檢索。
根據(jù)本發(fā)明的一個(gè)方面,提供一種從可移植電子文檔中提取字符外接矩形的設(shè)備,包括:命令及資源提取裝置,針對(duì)可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分裝置,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換裝置,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補(bǔ)字體,以替換待替換字體,所述替補(bǔ)字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取裝置,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計(jì)算裝置,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計(jì)算字符的外接矩形。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種從可移植電子文檔中提取字符外接矩形的方法,包括:命令及資源提取步驟,針對(duì)可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分步驟,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換步驟,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補(bǔ)字體,以替換待替換字體,所述替補(bǔ)字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取步驟,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計(jì)算步驟,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計(jì)算字符的外接矩形。
本發(fā)明能夠用于從諸如PDF、PS的可移植電子文檔中提取字符的最小外接矩形,所提取的字符外接矩形可以用于文檔重用或者文檔檢索等。例如,通過比較字符外接矩形的幾何分布關(guān)系,可以實(shí)現(xiàn)電子文檔和文檔圖像之間的匹配,從而實(shí)現(xiàn)文檔檢索。
通過閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述,將更好地理解本發(fā)明的以上和其他目標(biāo)、特征、優(yōu)點(diǎn)和技術(shù)及工業(yè)重要性。
附圖說明
圖1示出根據(jù)本發(fā)明實(shí)施例的實(shí)現(xiàn)從可移植電子文檔中提取字符外接矩形的計(jì)算機(jī)系統(tǒng)。
圖2示出根據(jù)本發(fā)明實(shí)施例的從可移植電子文檔中提取字符外接矩形的設(shè)備的總體框圖。
圖3示例性地示出字符“g”的字形度量信息。
圖4示例性地示出字符外接矩形提取的效果對(duì)比,左側(cè)為采用開源軟件sumatrapdf的字體替換方法來提取字符外接矩形的效果,右側(cè)為應(yīng)用本發(fā)明實(shí)施例來提取字符外接矩形的效果。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會(huì)社理光,未經(jīng)株式會(huì)社理光許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910249849.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種在多種電子設(shè)備,尤其是在電子服務(wù)提供商的電子設(shè)備和電子服務(wù)用戶的電子設(shè)備之間建立受保護(hù)的電子通信的方法
- 一種電子打火機(jī)及其裝配方法
- 電子檔案管理系統(tǒng)
- 在處理系統(tǒng)化學(xué)分析中使用的電子束激勵(lì)器
- 電子文件管理方法和管理系統(tǒng)
- 一種有效電子憑據(jù)生成、公開驗(yàn)證方法、裝置及系統(tǒng)
- 電子文憑讀寫控制系統(tǒng)和方法
- 具有加密解密功能的智能化電子證件管理裝置
- 一種基于數(shù)字證書的電子印章方法及電子印章系統(tǒng)
- 一種電子印章使用方法、裝置及電子設(shè)備
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





