[發明專利]一種基于Mask R-cnn算法和類型分割的掃描文件版面分析方法在審
| 申請號: | 202211119268.8 | 申請日: | 2022-09-14 |
| 公開(公告)號: | CN115578741A | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 趙衛東;張曉明;李旭健;肖智勇 | 申請(專利權)人: | 山東科技大學 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V30/414;G06V30/416;G06N3/04;G06N3/08;G06V30/146;G06V30/18;G06V30/19;G06V30/20 |
| 代理公司: | 青島智地領創專利代理有限公司 37252 | 代理人: | 種艷麗 |
| 地址: | 266590 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mask cnn 算法 類型 分割 掃描 文件 版面 分析 方法 | ||
本發明提出了一種基于Mask R?cnn算法和類型分割的掃描文件版面分析方法,屬于深度學習領域。該方法主要采用類型分割的技術方案,以Mask R?cnn算法為基礎進行實現,目的是為了提高版面分析的準確率。具體包括如下步驟;將掃描的文件彩色圖像作為輸入,首先進行表格識別并分割,分割表格后的圖像再作為輸入,進行插圖的識別并分割,然后去除紅章,最后對去除表格、插圖和紅章后的圖像進行標題識別,未識別部分作為文本部分輸出。在復雜版面的掃描文件中,該方法解決了自頂向下、自底向上和綜合型方法的準確率不高的問題,從而對圖像分類、文本處理以及OCR等技術能夠進一步的優化,最終提高了掃描文件版面分析準確率。
技術領域
本發明屬于深度學習領域,具體涉及一種基于Mask R-cnn算法和類型分割的掃描文件版面分析方法。
背景技術
對掃描文件的版面進行分析研究具有重要意義。首先,掃描文件有著便于攜帶、方便保存、可閱讀但不可隨意修改等優點,因此掃描文件被廣泛使用。其次,掃描文件的電子化可以很好的將資料保存下來,而掃描文件版面分析是構成掃描文件電子化的重要步驟,正確有效的掃描文件版面分析可以很大程度上確保精準度。與此同時,隨著圖像分類、文本處理等技術的不斷涌現,版面分析技術也變得愈加重要,因此如果想要對掃描文件中的文本、插圖進行智能化處理,版面分析是解決這一問題必不缺少的步驟。
版面分析有自頂向下、自底向上和綜合型三種。自頂向下從文檔圖像整體開始,采用相關算法從整體頁面中分割出不同的區域,該算法適用于版面較為規范簡明的文檔圖像。自底向上的算法從局部信息開始通過連通域等方式逐步合并成為不同的文檔區域,其算法適用于較為復雜的版面分析,但算法效率常常較低,且難以形成統一的合并規則。
基于上述兩種算法的優缺點,綜合型算法將自頂向下和自底向上的兩種算法相互融合,也是版面分析中最為常用的方法。Yang提出了基于紋理的分析方法,根據文檔圖像中明顯的行間隔和圖像表格的線條紋理特征對文檔圖像進行分析。Tian等人根據連通區域距離特征和連通區域尺寸大小橫向縱向排列以及參考行等特征,進行相應的組合,提出了一種自底向上和自頂向下相結合的混合型。但是對于掃描文件這種頁面比較復雜的類型,很難較好的提取出掃描文件中的各元素,比如含有紅章、不規則表格等,這些區域很難進行劃分,準確率不高。因此,需要一種能夠更加有效的對掃描文件進行識別和分類的方法。
Mask R-cnn是用來檢測圖像中的對象的一種算法,同時為每個實例生成高質量的分割掩碼。這種方法稱為掩模區域卷積神經網絡,它通過在已有的分支上增加一個分支來預測并行中的目標掩模,從而更快地擴展了區域卷積神經網絡。然而使用Mask R-cnn算法來處理版面分析多分類問題,同時識別出所有的表格、插圖、標題、文本準確率較低,究其原因,Mask R-cnn算法用來多目標檢測存在一定的問題。
發明內容
本發明針對掃描文件在版面分析方面準確率不高、損失率較大的問題,提出了一種基于Mask R-cnn算法和類型分割的掃描文件版面分析方法,該方法的核心在于提出一種新的方法:類型分割法,并基于Mask R-cnn算法和該類型分割法對掃描文件版面進行分析,對表格、插圖、標題、文字、紅章部分分別進行精準識別。
為了實現上述目的,本發明采用如下技術方案:
一種基于Mask R-cnn算法和類型分割的掃描文件版面分析方法,將掃描的原始彩色圖像作為輸入,首先對圖像中的表格進行識別并分割,分割表格后的圖像作為輸入,進行插圖的識別并分割,然后去除圖像中的紅章,最后將去除表格、插圖和紅章后的圖像進行標題識別,未識別部分作為文本部分輸出,具體包括如下步驟:
步驟1、定義載入接口和Mask R-cnn模型,進行模型訓練;
步驟2、實時獲取掃描文件原始彩色圖像,并進行預處理;
步驟3、基于訓練完成的模型進行分類識別,首先基于表格識別模型識別彩色圖像中的表格區域,提取表格,輸出表格和提取表格后的圖像1;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學,未經山東科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211119268.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:充電路面與光伏發電路面功能分開的太陽能公路系統
- 下一篇:一種卷線盤繞線設備





