[發明專利]一種表格識別方法、裝置和計算機可讀存儲介質有效
| 申請號: | 202110268987.5 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN112686223B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 何楠君;盧東煥;李悅翔;馬鍇;鄭冶楓 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06F40/174;G06F40/18;G06F40/30 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 李漢亮 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 表格 識別 方法 裝置 計算機 可讀 存儲 介質 | ||
本發明實施例公開了一種表格識別方法、裝置和計算機可讀存儲介質;本發明實施例在獲取待識別表格圖像后,該待識別表格圖像包括待識別表格,在待識別表格圖像中分割出待識別表格中的直線,得到待識別表格的直線信息,然后,根據直線信息,確定待識別表格中的每一單元格的單元格信息,對待識別表格圖像進行文本識別,得到待識別表格的每一文本區域的文本信息,然后,根據單元格信息與文本信息,將文本區域和單元格進行匹配,并基于匹配結果建立表格,得到識別后表格;該方案可以提升表格識別的準確性。
技術領域
本發明涉及通信技術領域,具體涉及一種表格識別方法、裝置和計算機可讀存儲介質。
背景技術
近年來,隨著神經網絡在人工智能領域的大熱,將神經網絡應用于表格識別也有了長足的發展。現有的表格識別方法主要采用邊緣檢測算法檢測到直線并進行處理來識別,或者通過圖神經網絡構建單元格之間的節點關系來識別等。
在對現有技術的研究和實踐過程中,本發明的發明人發現現有的表格識別方法主要針對的是形式簡單的表格的識別,對于復雜場景下的表格的識別,往往會造成算法的魯棒性差或者可解釋性低,從而導致表格識別的準確性不足。
發明內容
本發明實施例提供一種表格識別方法、裝置和計算機可讀存儲介質,可以提高表格識別的準確性。
一種表格識別方法,包括:
獲取待識別表格圖像,所述待識別表格圖像包括待識別表格;
在所述待識別表格圖像中分割出所述待識別表格中的直線,得到所述待識別表格的直線信息;
根據所述直線信息,確定所述待識別表格中的每一單元格的單元格信息;
對所述待識別表格圖像進行文本識別,得到所述待識別表格的每一文本區域的文本信息;
根據所述單元格信息與文本信息,將所述文本區域和單元格進行匹配,并基于匹配結果建立表格,得到識別后表格。
相應的,本發明實施例提供一種表格識別裝置,包括:
獲取單元,用于獲取待識別表格圖像,所述待識別表格圖像包括待識別表格;
分割單元,用于在所述待識別表格圖像中分割出所述待識別表格中的直線,得到所述待識別表格的直線信息;
確定單元,用于根據所述直線信息,確定所述待識別表格中的每一單元格的單元格信息;
識別單元,用于對所述待識別表格圖像進行文本識別,得到所述待識別表格的每一文本區域的文本信息;
匹配單元,用于根據所述單元格信息與文本信息,將所述文本區域和單元格進行匹配,并基于匹配結果建立表格,得到識別后表格。
可選的,在一些實施例中,所述分割單元,具體可以用于對所述待識別表格圖像進行語義特征提取,得到所述待識別表格的語義特征;將所述語義特征轉換為所述待識別表格的直線特征;根據所述直線特征,確定所述待識別表格的直線信息。
可選的,在一些實施例中,所述分割單元,具體可以用于根據預設水平感受野,對所述語義特征進行水平轉換,得到所述待識別表格的初始直線特征;基于預設豎直感受野,對所述初始直線特征進行豎直轉換,得到所述待識別表格的直線特征。
可選的,在一些實施例中,所述分割單元,具體可以用于將所述語義特征在水平方向進行切片,得到多個子語義特征和所述子語義特征之間的水平排列順序;采用所述預設水平感受野,對所述子語義特征進行水平卷積,得到水平語義特征;根據所述水平排列順序,將所述水平語義特征進行融合,得到所述待識別表格的初始直線特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110268987.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:VR資源硬件適配方法
- 下一篇:手柄追蹤效果評估方法





