[發(fā)明專利]基于表格識別的表格文字信息提取的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910182866.1 | 申請日: | 2019-03-12 |
| 公開(公告)號: | CN109934160B | 公開(公告)日: | 2023-06-02 |
| 發(fā)明(設(shè)計)人: | 孫杰;王光夫 | 申請(專利權(quán))人: | 天津瑟威蘭斯科技有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/148;G06V30/414;G06V30/168;G06V30/16 |
| 代理公司: | 天津展譽專利代理有限公司 12221 | 代理人: | 陳欣 |
| 地址: | 300000 天津市西青區(qū)濱海高新區(qū)華苑*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 表格 識別 文字 信息 提取 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于表格識別的表格文字信息提取的方法及系統(tǒng),其特征在于,包括如下步驟:利用圖像算法框架載入表格圖像;識別定位出表格圖像中的所有橫線,確定中間位置的橫線為候選線;將候選線兩端延長至左右邊界,左右邊界分別縱向延長至上下頂點;根據(jù)預(yù)設(shè)的相鄰像素值,左右邊界分別沿橫向與相鄰像素值內(nèi)的節(jié)點進行連接,連接過程中,同時尋找縱向在相鄰像素值內(nèi)的節(jié)點進行連接;對于表格中每個單元格內(nèi)的信息分別進行提取識別。本發(fā)明采取針對表格本身結(jié)構(gòu)識別,進而盡可能的還原表格本身結(jié)構(gòu)化的特征,再對每個表格內(nèi)容進行獨立識別再做個性化處理,使其完成針對性的提取表格內(nèi)的文字信息,進而提高識別準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及表格文字識別技術(shù)領(lǐng)域,尤其涉及一種基于表格識別的表格文字信息提取的方法及系統(tǒng)。
背景技術(shù)
表格是文檔中常用的數(shù)據(jù)資料載體,目前,表格在日常工作生活中得到廣泛應(yīng)用,大量的文檔信息以簡明的信息表達方式即表格形式存在,特別是IT、銀行、金融等行業(yè),每天要處理的表格數(shù)量驚人,如果這些表格都能由計算機來處理,將會大大提高工作效率。表格內(nèi)容的自動輸入、存儲、管理已經(jīng)成為文檔智能處理領(lǐng)域的一個重要組成部分,表格內(nèi)容的分析與識別是計算機文檔處理中的一個重要項目,廣泛應(yīng)用于各種場合,例如商業(yè)和政府機構(gòu),表格中文字信息的提取具有很高的研究和應(yīng)用價值。由于電腦軟件的發(fā)展,目前的表格多是預(yù)先設(shè)計的模板,并用word、excel等軟件打印而成,在設(shè)計模板的時候有些單元格長度或者寬度預(yù)留不足導(dǎo)致字體變小,或者單元格自動適配格式變化等多種情況出現(xiàn),使得表格識別存在較多的特殊行。當(dāng)前主流的算法大多是在不提取表格框線基礎(chǔ)上,實現(xiàn)字線分離,從而識別所有文字信息后再進行內(nèi)容上的進一步篩選,從而完成內(nèi)容信息識別。主流的技術(shù)對于表格本身結(jié)構(gòu)破壞性較高,同時使得表格信息結(jié)構(gòu)化輸出效果變?nèi)酰也还苡脩粜枰R別表格所有內(nèi)容還是需要識別部分表格信息,主流的算法都需要識別所有的文字信息后,再進行位置和信息的篩選,需要做大量的工作,綜上所述,現(xiàn)有技術(shù)能夠識別的表格類型較少,且存在準(zhǔn)確率較低、速度較慢的問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)中存在的不足,提供一種基于表格識別的表格文字信息提取的方法及系統(tǒng)。
本發(fā)明是通過以下技術(shù)方案予以實現(xiàn):
一種基于表格識別的表格文字信息提取的方法,其特征在于,包括如下步驟:
a.利用圖像算法框架載入表格圖像;
b.識別定位出表格圖像中的所有橫線,確定中間位置的橫線為候選線;
c.將候選線兩端延長至左右邊界,左右邊界分別縱向延長至上下頂點;
d.根據(jù)預(yù)設(shè)的相鄰像素值,左右邊界分別沿橫向與相鄰像素值內(nèi)的節(jié)點進行連接,連接過程中,同時尋找縱向在相鄰像素值內(nèi)的節(jié)點進行連接;
e.對于表格中每個單元格內(nèi)的信息分別進行提取識別。
根據(jù)上述技術(shù)方案,優(yōu)選地,步驟a還包括:在所述利用圖像算法框架載入表格圖像之后,對表格信息進行預(yù)處理。
根據(jù)上述技術(shù)方案,優(yōu)選地,步驟c還包括:在所述左右邊界分別縱向延長至上下頂點之后,對圖像進行矯正處理。
根據(jù)上述技術(shù)方案,優(yōu)選地,步驟e具體包括:根據(jù)表格結(jié)構(gòu)特征對表格單元格進行ID標(biāo)記;提取需要識別的表格對應(yīng)標(biāo)記的原圖中局部圖像;識別提取局部圖像內(nèi)的文字信息。
根據(jù)上述技術(shù)方案,優(yōu)選地,步驟e還包括:在所述識別提取局部圖像內(nèi)的文字信息之前,進行局部圖像增強處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津瑟威蘭斯科技有限公司,未經(jīng)天津瑟威蘭斯科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910182866.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





