[發(fā)明專利]表格數(shù)據(jù)處理方法和裝置無效
| 申請?zhí)枺?/td> | 200610171447.0 | 申請日: | 2006-12-27 |
| 公開(公告)號: | CN101127081A | 公開(公告)日: | 2008-02-20 |
| 發(fā)明(設(shè)計)人: | 田中宏 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 | 代理人: | 孫海龍 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 數(shù)據(jù)處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種從表格的圖像中識別出由分格線(ruled?line)和單元格(其是由分格線圍出的區(qū)域)組成的表格的技術(shù),更加具體地講,涉及一種修正自動識別出的分格線或單元格(cell)的技術(shù)。
背景技術(shù)
近來,隨著商務(wù)的計算機化,大量電子文檔已經(jīng)開始得到使用。作為用于使已經(jīng)使用紙質(zhì)文檔進行了運作的商務(wù)計算機化或者用于把用紙件發(fā)布的文檔轉(zhuǎn)換成電子文檔的技術(shù),諸如光學(xué)字符讀取器或者光學(xué)字符識別(OCR)這樣的文檔圖像識別技術(shù)的重要性不斷提高。尤其是,用于識別包含在諸如表格文檔這樣的文檔中的表格的技術(shù)是很重要的。
所使用的表格是由垂直和水平分格線組成的。在識別表格結(jié)構(gòu)的表格識別技術(shù)中,已經(jīng)開發(fā)出了識別表格中的分格線以及由這些分格線圍繞出的單元格的位置和大小的技術(shù)。
分格線提取方法包括例如根據(jù)文檔圖像中的垂直和水平像素游程提取分格線的方法(例如,日本專利申請公告JP-A-H1-217583)。圖像輸入構(gòu)件借助掃描儀等獲得文檔圖像。垂直和水平游程提取構(gòu)件提取黑色像素在垂直方向或水平方向上連續(xù)出現(xiàn)預(yù)定長度或更長長度的區(qū)域作為游程區(qū)域。垂直和水平游程合并構(gòu)件將提取出來的彼此相鄰的游程區(qū)域合并成一個分格線區(qū)域。最后,將所提取的分格線區(qū)域存儲到分格線數(shù)據(jù)結(jié)構(gòu)中。
此外,日本專利申請公報JP-A-H7-28939公開了一種即使在輸入圖像有一些傾斜的情況下也能夠正確對表格部分進行向量化的技術(shù)。具體來說,在用于對表格圖像中的表格部分進行向量化的裝置中,配備有投影單元,在該投影單元中,將表格圖像當(dāng)中的線段分類成垂直方向組和水平方向組,僅僅將垂直方向組中的線段投影到水平軸上,并且僅僅將水平方向組中的線段投影到垂直軸上,以獲得分格線的投影圖像。此外,還配備有遮擋圖像產(chǎn)生器和分格線檢索單元,遮擋圖像產(chǎn)生器用于從垂直方向/水平方向繪制出寬度與存儲器中分格線的投影圖像相同的直線,以生成遮擋圖像,分格線檢索單元用于依據(jù)遮擋圖像檢索分格線,以對表格單元進行矢量化。然后,分格線檢索單元從遮擋圖像中提取出直線的交點,并且根據(jù)像素的數(shù)量與所提取的交點之間的距離的比率來確定這些交點之間是否存在分格線。
單元格提取方法主要包括提取由分格線圍繞的矩形區(qū)域的方法,和提取交點(是分格線交叉的點)并且根據(jù)這些交點的位置關(guān)系提取單元格區(qū)域的方法。在例如《A?Study?on?Table?Recognition?with?Complex?Structure》(Kojima、Kiyosue、Akiyama,37th?second?half?of?the?national?convention?inInformation?processing?Society?of?Japan,6W-8,第1660-1161頁,1988年10月)(下文中稱為非專利文獻1)和《Structure?Recognition?of?VariousKinds?of?Table-Form?Documents》(Qin、Watanabe、Sugie,the?Transactionsof?the?Institute?of?Electronics,Information?and?Communication?Engieers,D-II,第J76-D-II卷,第10期,第2165-2176頁,1993年10月)(下文中稱為非專利文獻2)中公開了提取由分格線圍繞的矩形區(qū)域的方法。再有,日本專利申請公報JP-A-H9-50527也使用了類似的原理。
非專利文獻2的單元格提取方法為如下所述:就是說,將進行單元格提取所針對的表格區(qū)域確定為目標(biāo)區(qū)域,并且用從目標(biāo)區(qū)域的一個邊緣到另一個邊緣的水平分格線分割目標(biāo)區(qū)域。然后,針對各個分割出來的區(qū)域?qū)δ繕?biāo)區(qū)域進行垂直分割。類似地,輪流進行水平分割和垂直分割,并且重復(fù)進行這些分割,直到分割變得不可能進行。然后,提取單元格。
此外,在多種文獻中公開了根據(jù)分格線相交的交點提取單元格區(qū)域的方法。例如,日本專利申請公報JP-A-H8-212292、JP-A-H9-138837、JP-A-H10-40333和JP-A-H8-221506公開了這種方法。基本過程是:從單元格的左上角作為起始點沿著順時針方向追蹤單元格,并且將到起始點的路徑標(biāo)識為單元格區(qū)域。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610171447.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





