[發明專利]從可移植電子文檔中提取光柵圖像的方法和設備有效
| 申請號: | 200910141741.0 | 申請日: | 2009-05-25 |
| 公開(公告)號: | CN101901341A | 公開(公告)日: | 2010-12-01 |
| 發明(設計)人: | 杜成;徐文暉;長谷川史裕;井上浩一 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06F17/30 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 移植 電子 文檔 提取 光柵 圖像 方法 設備 | ||
技術領域
本發明涉及一種從可移植電子文檔中提取光柵圖像的方法和設備,更具體地說,本發明涉及一種通過分析可移植電子文檔的格式來提取其中的光柵圖像的方法和設備。
背景技術
可移植電子文檔,如PDF及PS格式,在日常辦公工作中被廣泛應用。可移植電子文檔是一類用于表示文檔的電子文檔格式,這類電子文檔的生成及打印、顯示等輸出操作可以基于不同的應用軟件、硬件以及操作系統。
可移植電子文檔定義了兩種描述光柵圖像的方式,內聯圖像以及ImageXObject。與內聯圖像對應的PDF命令以及圖像數據都存放于頁內容流中,而與ImageXObject對應的PDF命令存放于頁內容流中,圖像數據存放于頁資源中。
區別于通過描述圖像中的一系列控制點并連接控制點之間的路徑來描述圖像的矢量圖像,光柵圖像也叫位圖,通過描述圖像中每個象素的顏色信息來表示該圖像。
從可移植電子文檔中提取諸如段落、表格的成份還是困難的工作。比如,利用Adobe?Acrobat能從PDF格式文檔中提取光柵圖像,但提取結果有時并不能令人滿意。
首先,內聯光柵圖像不能被提取。例如,Adobe的Acrobat?Reader只能提取ImageXObject光柵圖像。
其次,在PDF格式文檔中,一個視覺上完整的光柵圖像往往表示為相連接的多個圖像片斷,AdobeAcrobat會提取多個圖像片斷,而不是一個完整的圖像。
而且,在PDF格式文檔中,表格的分割線往往被表示為多個細長的光柵圖像,AdobeAcrobat會把這些用于表示表格線的光柵圖像也提取出來。而這種細長的分割線通常不是感知意義上的內容,例如,在利用圖像檢索來進行文檔檢索的情況下,作為分割線的這樣的細長的光柵圖像并無檢索意義上的顯著特征,用戶一般并不希望將其提取出來。
根據美國專利6801673B2,PDF格式文檔中的詞被提取。該專利通過查找文字片斷中的詞分隔字符(空格)來提取詞或者是判斷相鄰文字片斷之間的距離,如果該距離大于一定閾值,則相鄰的文字片斷就被分為兩個詞。該專利的輸入是一個PDF格式文檔,輸出是該文檔所包含的詞的集合。
美國專利申請5832530A提出了一種從PDF格式文檔中提取內容片斷的工具。首先,用戶在PDF瀏覽界面拖拽一個矩形,該工具提取該矩形內包含的PDF格式文檔內容片斷,并將提取的內容片斷存儲為一個新的PDF格式文檔。該工具提取和粘貼PDF命令,諸如圖片、表格信息等等的具有感知意義的文檔內容并沒有提取。
發明內容
考慮到現有技術方案中的缺陷,本發明提出了相應的解決方案。本發明提供一種通過分析可移植電子文檔的格式來提取其中的光柵圖像的方法和設備。
根據本發明的一個方面,一種從可移植電子文檔中提取光柵圖像的方法,包含以下步驟:a)解析可移植電子文檔的格式以獲取每頁中與光柵圖像相關的命令和資源;b)處理所述命令和資源來提取候選光柵圖像;c)合并相連接的候選光柵圖像;以及d)去除虛警光柵圖像。
根據本發明的另一個方面,一種從可移植電子文檔中提取光柵圖像的設備,包括:文檔解析裝置,用于解析可移植電子文檔的格式以獲取每頁中與光柵圖像相關的命令和資源;候選光柵圖像提取裝置,用于處理所述命令和資源來提取候選光柵圖像;光柵圖像合并裝置,用于合并相連接的候選光柵圖像;以及虛警光柵圖像去除裝置,用于去除虛警光柵圖像。
本發明的實施例能夠應用于文檔處理和文檔理解領域。諸如文檔內容提取、文檔重用以及文檔檢索。例如,光柵圖像的提取可以應用于文檔重用以及文檔檢索系統中。
根據本發明的實施例,通過分析可移植電子文檔的格式來從可移植電子文檔提取其中的光柵圖像,實現了不論內聯光柵圖像還是ImageXObject光柵圖像均可提取,且視覺上完整的光柵圖像將作為一個完整的圖像提取,并排除了作為非感知意義上的內容的細長分割線。
通過閱讀結合附圖考慮的以下本發明的優選實施例的詳細描述,將更好地理解本發明的以上和其他目標、特征、優點和技術及工業重要性。
附圖說明
圖1示出根據本發明實施例的從可移植電子文檔中提取光柵圖像的計算機系統的硬件配置。
圖2示出按照本發明實施例的從可移植電子文檔中提取光柵圖像的方法的總體流程圖。
圖3示出從可移植電子文檔中提取與光柵圖像相關的命令和資源的方法的流程。
圖4示出提取候選光柵圖像的方法的流程。
圖5示出合并相連接的候選光柵圖像的方法的流程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910141741.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型無煙水煤爐
- 下一篇:鍋爐制粉系統送風管的送風提示裝置





