[發(fā)明專利]基于表格識別的表格文字信息提取的方法及系統(tǒng)有效

申請?zhí)枺?/td>	201910182866.1	申請日：	2019-03-12
公開（公告）號：	CN109934160B	公開（公告）日：	2023-06-02
發(fā)明（設(shè)計）人：	孫杰;王光夫	申請（專利權(quán)）人：	天津瑟威蘭斯科技有限公司
主分類號：	G06V30/413	分類號：	G06V30/413;G06V30/148;G06V30/414;G06V30/168;G06V30/16
代理公司：	天津展譽專利代理有限公司 12221	代理人：	陳欣
地址：	300000 天津市西青區(qū)濱海高新區(qū)華苑***	國省代碼：	天津;12
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于表格識別文字信息提取方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種基于表格識別的表格文字信息提取的方法及系統(tǒng)，其特征在于，包括如下步驟：利用圖像算法框架載入表格圖像；識別定位出表格圖像中的所有橫線，確定中間位置的橫線為候選線；將候選線兩端延長至左右邊界，左右邊界分別縱向延長至上下頂點；根據(jù)預(yù)設(shè)的相鄰像素值，左右邊界分別沿橫向與相鄰像素值內(nèi)的節(jié)點進行連接，連接過程中，同時尋找縱向在相鄰像素值內(nèi)的節(jié)點進行連接；對于表格中每個單元格內(nèi)的信息分別進行提取識別。本發(fā)明采取針對表格本身結(jié)構(gòu)識別，進而盡可能的還原表格本身結(jié)構(gòu)化的特征，再對每個表格內(nèi)容進行獨立識別再做個性化處理，使其完成針對性的提取表格內(nèi)的文字信息，進而提高識別準(zhǔn)確率。

技術(shù)領(lǐng)域

本發(fā)明涉及表格文字識別技術(shù)領(lǐng)域，尤其涉及一種基于表格識別的表格文字信息提取的方法及系統(tǒng)。

背景技術(shù)

表格是文檔中常用的數(shù)據(jù)資料載體，目前，表格在日常工作生活中得到廣泛應(yīng)用，大量的文檔信息以簡明的信息表達方式即表格形式存在，特別是IT、銀行、金融等行業(yè)，每天要處理的表格數(shù)量驚人，如果這些表格都能由計算機來處理，將會大大提高工作效率。表格內(nèi)容的自動輸入、存儲、管理已經(jīng)成為文檔智能處理領(lǐng)域的一個重要組成部分，表格內(nèi)容的分析與識別是計算機文檔處理中的一個重要項目，廣泛應(yīng)用于各種場合，例如商業(yè)和政府機構(gòu)，表格中文字信息的提取具有很高的研究和應(yīng)用價值。由于電腦軟件的發(fā)展，目前的表格多是預(yù)先設(shè)計的模板，并用word、excel等軟件打印而成，在設(shè)計模板的時候有些單元格長度或者寬度預(yù)留不足導(dǎo)致字體變小，或者單元格自動適配格式變化等多種情況出現(xiàn)，使得表格識別存在較多的特殊行。當(dāng)前主流的算法大多是在不提取表格框線基礎(chǔ)上，實現(xiàn)字線分離，從而識別所有文字信息后再進行內(nèi)容上的進一步篩選，從而完成內(nèi)容信息識別。主流的技術(shù)對于表格本身結(jié)構(gòu)破壞性較高，同時使得表格信息結(jié)構(gòu)化輸出效果變?nèi)酰也还苡脩粜枰R別表格所有內(nèi)容還是需要識別部分表格信息，主流的算法都需要識別所有的文字信息后，再進行位置和信息的篩選，需要做大量的工作，綜上所述，現(xiàn)有技術(shù)能夠識別的表格類型較少，且存在準(zhǔn)確率較低、速度較慢的問題。

發(fā)明內(nèi)容

本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)中存在的不足，提供一種基于表格識別的表格文字信息提取的方法及系統(tǒng)。

本發(fā)明是通過以下技術(shù)方案予以實現(xiàn)：

一種基于表格識別的表格文字信息提取的方法，其特征在于，包括如下步驟：

a.利用圖像算法框架載入表格圖像；

b.識別定位出表格圖像中的所有橫線，確定中間位置的橫線為候選線；

c.將候選線兩端延長至左右邊界，左右邊界分別縱向延長至上下頂點；

d.根據(jù)預(yù)設(shè)的相鄰像素值，左右邊界分別沿橫向與相鄰像素值內(nèi)的節(jié)點進行連接，連接過程中，同時尋找縱向在相鄰像素值內(nèi)的節(jié)點進行連接；

e.對于表格中每個單元格內(nèi)的信息分別進行提取識別。

根據(jù)上述技術(shù)方案，優(yōu)選地，步驟a還包括：在所述利用圖像算法框架載入表格圖像之后，對表格信息進行預(yù)處理。

根據(jù)上述技術(shù)方案，優(yōu)選地，步驟c還包括：在所述左右邊界分別縱向延長至上下頂點之后，對圖像進行矯正處理。

根據(jù)上述技術(shù)方案，優(yōu)選地，步驟e具體包括：根據(jù)表格結(jié)構(gòu)特征對表格單元格進行ID標(biāo)記；提取需要識別的表格對應(yīng)標(biāo)記的原圖中局部圖像；識別提取局部圖像內(nèi)的文字信息。

根據(jù)上述技術(shù)方案，優(yōu)選地，步驟e還包括：在所述識別提取局部圖像內(nèi)的文字信息之前，進行局部圖像增強處理。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津瑟威蘭斯科技有限公司，未經(jīng)天津瑟威蘭斯科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910182866.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種多特征融合的手勢識別方法
下一篇：基于卷積神經(jīng)網(wǎng)絡(luò)的車輛識別與檢測方法及系統(tǒng)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】