[發明專利]文檔處理方法、裝置、設備及存儲介質在審
| 申請號: | 202011545186.0 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN114743203A | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 寧榮江 | 申請(專利權)人: | 國信君和(北京)科技有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/414;G06V30/10;G06F40/131 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 任媛;劉鐵生 |
| 地址: | 100083 北京市海淀區北四環中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 處理 方法 裝置 設備 存儲 介質 | ||
本申請提供一種文檔處理方法、裝置、設備及存儲介質,其中,文檔處理方法,包括:將針對紙質文檔采集的待處理圖像進行光學字符識別,得到多個文本塊和每個所述文本塊對應的坐標信息;根據每個所述文本塊對應的坐標信息,對處于同一行中的所述文本塊進行拼接,得到按行區分的整行文本塊;根據所述紙質文檔的段落特征,選取所述整行文本塊組成文本段。本申請能夠實現從識別得到的文本塊中提取文本段的目的,由于文本段相較于離散的文本塊更加便于歸納和分析,因此,能夠解決傳統的光學字符識別得到的離散的文本塊不便于進行歸納和分析的問題,有助于紙質文檔數字化、信息化處理的實現。
技術領域
本申請涉及圖像文本識別技術領域,尤其涉及一種文檔處理方法、裝置、設備及存儲介質。
背景技術
隨著信息化技術的快速發展,從紙質文檔中提取文本信息以進行電子存檔和數據分析的需求日益增強。
目前,從紙質文檔中提取文本信息的主要手段是,將紙質文檔進行掃描得到文檔圖像,然后采用光學字符識別(Optical Character Recognition,OCR)技術識別出其中的文字內容。
在實際應用中,文本信息一般是分段記載的,但是,當前通過光學字符識別得到的是一系列離散的文本塊,每個文本塊僅包括一行文字或者不足一行的幾個文字,這些離散的文本塊不便于進行歸納和分析。因此,如何從識別得到的文本塊中提取文本段,成為紙質文檔信息化處理中亟待解決的問題。
發明內容
本申請實施例的目的是提供一種文檔處理方法、裝置、設備及存儲介質,以解決當前光學字符識別得到的文本塊不便于歸納和分析的問題。
為解決上述技術問題,本申請實施例提供如下技術方案:
本申請第一方面提供一種文檔處理方法,包括:
將針對紙質文檔采集的待處理圖像進行光學字符識別,得到多個文本塊和每個所述文本塊對應的坐標信息;
根據每個所述文本塊對應的坐標信息,對處于同一行中的所述文本塊進行拼接,得到按行區分的整行文本塊;
根據所述紙質文檔的段落特征,選取所述整行文本塊組成文本段。
在本申請第一方面的一些變更實施方式中,所述根據每個所述文本塊對應的坐標信息,對處于同一行中的所述文本塊進行拼接,可以包括:遍歷所述多個文本塊,根據所述文本塊的縱坐標判斷相鄰的所述文本塊是否處于同一行,并將處于同一行的所述文本塊進行拼接。
在本申請第一方面的一些變更實施方式中,所述根據所述文本塊的縱坐標判斷相鄰的所述文本塊是否處于同一行,可以包括:判斷相鄰的所述文本塊之間的縱坐標差是否小于預設差值閾值,若小于預設差值閾值,則確定相鄰的所述文本塊處于同一行;或者,判斷相鄰的所述文本塊之間的縱坐標比值是否小于預設比值閾值,若小于預設比值閾值,則確定相鄰的所述文本塊處于同一行。
在本申請第一方面的一些變更實施方式中,所述縱坐標差可以包括頂點坐標之差、底點坐標之差和中心縱坐標之差中的至少一項。
在本申請第一方面的一些變更實施方式中,若所述紙質文檔的段落特征包括首行縮進,所述選取所述整行文本塊組成文本段,可以包括:
遍歷每個所述整行文本塊,根據所述整行文本塊起始位置的橫坐標是否小于橫坐標閾值確定所述整行文本塊是段中文本塊或段首文本塊;
選取段首文本塊與其后相鄰的段中文本塊組成文本段。
在本申請第一方面的一些變更實施方式中,在根據所述整行文本塊起始位置的橫坐標是否小于橫坐標閾值確定所述整行文本塊是段中文本塊或段首文本塊之前,還可以包括:
選取正文部分的多個整行文本塊;
根據選取的多個整行文本塊的起始位置的橫坐標的平均值,確定橫坐標閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國信君和(北京)科技有限公司,未經國信君和(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011545186.0/2.html,轉載請聲明來源鉆瓜專利網。





