[發明專利]文檔圖像的文檔版面分析方法、裝置及存儲介質有效
| 申請號: | 201811152315.2 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN110969056B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 程戰戰 | 申請(專利權)人: | 杭州海康威視數字技術股份有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06T3/60;G06T5/00 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 劉映東 |
| 地址: | 310051 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 圖像 版面 分析 方法 裝置 存儲 介質 | ||
本發明是關于一種文檔圖像的文檔版面分析方法、裝置及存儲介質,涉及圖像處理技術領域。在本發明實施例中,獲取文檔圖像中待分析的文檔版面,由于提取了該文檔版面中的至少一個文字區塊,并對該至少一個文字區塊進行文字識別,得到至少一個文字區塊對應的文字信息,因此,可以根據該至少一個文字區塊對應的文字信息,確定該至少一個文字區塊對應的至少一個主題信息,進而根據該至少一個主題信息,確定該文檔版面的描述信息。如此,當用戶在查閱文檔版面時,可以根據該文檔版面的描述信息快速獲知該文檔版面所表達的含義,提高了查閱文檔版面的效率。
技術領域
本發明涉及圖像處理技術領域,尤其涉及一種文檔圖像的文檔版面分析方法、裝置及存儲介質。
背景技術
文檔圖像是指以圖像格式呈現的一種文檔,而文檔圖像的文檔版面是指文檔圖像中包括多個區塊,不同區塊用于承載一種信息格式或者多種信息格式的內容。信息格式可以為文字、圖像或者表格等。文檔圖像的文檔版面由于內容分塊清晰,已經被廣泛應用在簡歷或者檔案等很多場景中。
文檔圖像的文檔版面由于不可編輯的特點,用戶在查閱文檔版面時,只能將該文檔版面的所有區塊包含的內容閱讀完,然后確定每個文字區塊所表達的含義,進而人為總結出整個文檔版面所表達的含義。例如,公司的人力資源部在面對大量的文檔圖像類的簡歷時,必須對每個簡歷進行查看進而篩選,無法快速得到每個簡歷的描述信息,導致篩選簡歷的效率較低。再例如,檔案館的檔案管理員在對大量文檔圖像類的檔案進行整理時,由于無法快速獲知每個檔案的描述信息,會大大降低整理檔案的效率。因此,自動對文檔版面進行分析以得到該文檔版面的描述信息是目前亟需解決的一個問題。
發明內容
本發明提供一種文檔圖像的文檔版面分析方法、裝置及存儲介質,可以解決無法自動且快速地獲取文檔版面的描述信息的問題。
第一方面,提供一種文檔圖像的文檔版面分析方法,所述方法包括:
獲取文檔圖像中待分析的文檔版面;
提取所述文檔版面中的至少一個文字區塊,并對所述至少一個文字區塊進行文字識別,得到所述至少一個文字區塊對應的文字信息;
根據所述至少一個文字區塊對應的文字信息,確定所述至少一個文字區塊對應的至少一個主題信息;
根據所述至少一個主題信息,確定所述文檔版面的描述信息。
在一個可能的實現方式中,所述獲取文檔圖像中待分析的文檔版面之后,還包括:
對所述文檔版面進行灰度處理,得到所述文檔版面的灰度圖像;
對所述灰度圖像進行高斯模糊處理,得到所述文檔版面的高斯模糊圖像;
對所述高斯模糊圖像進行銳化處理。
在一個可能的實現方式中,所述獲取文檔圖像中待分析的文檔版面之后,還包括:
檢測所述文檔版面是否處于傾斜狀態;
當檢測到所述文檔版面處于傾斜狀態時,對所述文檔版面進行傾斜矯正。
在一個可能的實現方式中,所述對所述文檔版面進行傾斜矯正,包括:
旋轉所述文檔版面,并確定所述文檔版面在旋轉過程中對應的多個垂直投影直方圖;
根據所述多個垂直投影直方圖確定所述文檔版面的多個行間距;
根據所述多個行間距中的最大行間距確定所述最大行間距對應的目標垂直投影直方圖;
將所述目標垂直投影直方圖對應的文檔版面確定為所述傾斜矯正后的文檔版面。
在一個可能的實現方式中,所述提取所述文檔版面中的至少一個文字區塊,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州海康威視數字技術股份有限公司,未經杭州海康威視數字技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811152315.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶口罩的耳機
- 下一篇:一種基于小沖孔蠕變技術的服役部件剩余壽命預測方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





