[發明專利]一種表格標注的方法和系統在審
| 申請號: | 202010637317.1 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111881769A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 萬林;張百靈;周炬;馬成龍 | 申請(專利權)人: | 蘇州開心盒子軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京尚倫律師事務所 11477 | 代理人: | 陳紅亮 |
| 地址: | 215123 江蘇省蘇州市蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 表格 標注 方法 系統 | ||
本發明公開了一種表格標注的方法和系統,該方法包括對包含有表格的文檔圖像進行二值化,獲得文檔二值圖像;從文檔二值圖像中提取文檔圖像的橫線,獲得第一圖像;從文檔二值圖像中提取文檔圖像的豎線,獲得第二圖像;將第一圖像和第二圖像進行疊加,并進行輪廓檢測,得到輪廓的外截矩形,獲得表格的單元格;對單元格中信息進行內容識別,獲得單元格內容;將檢測到的表格的單元格位置信息和識別出來的單元格內容信息輸入到標注工具,獲得表格標注結果。采用了本發明的技術方案,能夠保證預標注的單元格定位精確,減少全部人工標注中的誤差,而且在預標注的基礎上進行二次修改標注,提高了標注速度,節約人力成本。
技術領域
本發明涉及表格結構識別技術領域,尤其涉及一種表格標注的方法和系統。
背景技術
隨著大數據時代到來,越來越多的行業朝著數字化轉型,電子文檔作為異構大數據的重要內容,意義日益凸顯,光學字符識別(Optical Character Recognition,OCR)作為一種自動電子文檔結構化分析和內容提取的技術,代表了下一代大數據的發展方向,隨著云計算、移動智能終端的快速進步,社會各行各業對OCR技術的需求也越來越多樣化,這為OCR的技術更新和普遍使用提供了新的發展機遇。
過去二十多年來,隨著電子文檔的急劇增加,如何高效地從這些文檔中自動提取信息的研發需求也愈發受到矚目,企業級數據管理通常涉及內容廣泛的電子文檔,如采購單據、行業報告、商務郵件、銷售合同、雇傭協議、商業發票、個人簡歷等。以前,許多公司通過人工從業務文檔中提取數據,既費時又費錢,極大地限制和阻礙了企業運行效率,隨著PDF文檔的生產和使用量的不斷增加,目前大量的研究工作集中在實現文檔分析自動化的方法上,其中,表格結構識別是文檔分析中的難點之一。
表格數據是表示數據的一種強有力的方法,表格存在于各種類型的數字文檔中,對于讀者捕獲、搜索和比較事實、總結和得出結論非常有用,自動從表格中提取信息,并以更方便的數字消費格式表示信息,在文檔理解領域增加了巨大的價值。隨著計算機資源的發展,深度學習廣泛應用于機器視覺和自然語言處理任務中。表格結構識別任務也從傳統基于規則的圖像處理方法向基于數據的深度學習方法轉型。深度學習模型由數據驅動,學習能力強,但其對數據的高度依賴性也同時帶來了實踐中的各種問題。目前,雖然一些常見的計算機視覺、語音處理和自然語言處理等任務都有大量的開源數據,但相對于大量要解決的實際問題和任務,開源數據仍然是阻礙深度學習推廣應用的主要瓶頸。表格識別也同樣面對開源數據少、標注數據代價大的困難。例如在表格識別算法研發中,中文開源數據極少。對于這樣的任務,需要大量的人工標注,因此,降低表格識別數據的標注成本尤為重要。
發明內容
為克服相關技術中存在的問題,本發明實施例提供一種表格標注的方法和系統,能夠保證預標注的單元格定位精確,減少全部人工標注中的誤差,并且在預標注的基礎上進行二次修改標注,提高了標注速度,節約人力成本。
本發明實施例提供一種表格標注的方法,包括以下步驟:
對包含有表格的文檔圖像進行二值化,獲得文檔二值圖像;
從所述文檔二值圖像中提取文檔圖像的橫線,獲得第一圖像;
從所述文檔二值圖像中提取文檔圖像的豎線,獲得第二圖像;
將第一圖像和第二圖像進行疊加,并進行輪廓檢測,得到所述輪廓的外截矩形,獲得所述表格的單元格;
對所述單元格中信息進行內容識別,獲得所述單元格內容;
將檢測到的表格的單元格位置信息和識別出來的單元格內容信息輸入到標注工具,獲得表格標注結果。
所述對包含有表格的文檔圖像進行二值化,獲得文檔二值圖像,進一步包括以下步驟:
文檔圖像的局部區域根據對應的特征設定二值化閾值,所述特征包括亮度、對比度和/或紋理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州開心盒子軟件有限公司,未經蘇州開心盒子軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010637317.1/2.html,轉載請聲明來源鉆瓜專利網。





