[發明專利]一種基于Mask R-cnn算法和類型分割的掃描文件版面分析方法在審
| 申請號: | 202211119268.8 | 申請日: | 2022-09-14 |
| 公開(公告)號: | CN115578741A | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 趙衛東;張曉明;李旭健;肖智勇 | 申請(專利權)人: | 山東科技大學 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V30/414;G06V30/416;G06N3/04;G06N3/08;G06V30/146;G06V30/18;G06V30/19;G06V30/20 |
| 代理公司: | 青島智地領創專利代理有限公司 37252 | 代理人: | 種艷麗 |
| 地址: | 266590 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mask cnn 算法 類型 分割 掃描 文件 版面 分析 方法 | ||
1.一種基于Mask R-cnn算法和類型分割的掃描文件版面分析方法,其特征在于,將掃描的原始彩色圖像作為輸入,首先對圖像中的表格進行識別并分割,分割表格后的圖像作為輸入,進行插圖的識別并分割,然后去除圖像中的紅章,最后將去除表格、插圖和紅章后的圖像進行標題識別,未識別部分作為文本部分輸出,具體包括如下步驟:
步驟1、定義載入接口和Mask R-cnn模型,進行模型訓練;
步驟2、實時獲取掃描文件原始彩色圖像,并進行預處理;
步驟3、基于訓練完成的模型進行分類識別,首先基于表格識別模型識別彩色圖像中的表格區域,提取表格,輸出表格和提取表格后的圖像1;
步驟4、然后識別圖像1中的插圖區域,提取插圖,輸出插圖和提取插圖后的圖像2;
步驟5、去除圖像2中的紅章,輸出得到圖像3;
步驟6、最后識別圖像3中的標題并標注,未標注部分為文本,輸出標注標題后的圖像。
2.根據權利要求1所述基于Mask R-cnn算法和類型分割的掃描文件版面分析方法,其特征在于,所述步驟1的具體過程如下:
步驟1.1、對于定義載入接口,首先對獲取到的歷史數據集進行重寫操作,對數據集進行打亂排序,劃分訓練集以及測試集,其次獲取圖像和mask的映射關系,將mask轉換為Tensor,獲取到mask掩碼的坐標以及標簽,用于圖像分割;最后,對數據集中的圖像進行增強處理,并將原始圖像轉換為PyTorch張量;
步驟1.2、對于定義Mask R-cnn模型,包括獲取模型架構以及模型的輸入特征數,將輸出模型的特征類別和mask類別的參數均修改為2;還包括定義訓練和驗證數據加載器,使用輔助函數獲取Mask R-cnn模型;
步驟1.3、對于識別表格、插圖、標題以及文本采用不同的數據集,分別訓練出識別表格、插圖、標題的模型,最后保存訓練好的模型參數,此時訓練獲得三個模型:表格識別模型、插圖識別模型、標題識別模型,每一個識別模型均采用Mask R-cnn進行訓練得到,并選用殘差網絡ResNet101作為Mask R-cnn的主干特征提取網絡;
模型訓練中采用Adam優化器進行優化,從而調整模型更新權重和偏差參數θt,θt由公式(1)得到,
其中,θt-1表示上一次迭代得到的偏差參數,α表示默認學習率,mi表示梯度均值,vt表示梯度平方的指數移動平均數,∈=10-8;
其中,設置學習速率計劃程序每3個epoch將學習速率降低10倍;
在模型訓練期間對于每一個RoI接口定義一個多任務損失函數L,通過調用優化器不斷更新學習速率;訓練結束后,保存訓練好的模型參數;
L由公式(2)得到,
L=LcLs+LBox+Lmask (2)
其中,LCLS表示分類損失,LBOX表示回歸框損失,Lmask表示新加入的mask損失。
3.根據權利要求1所述基于Mask R-cnn算法和類型分割的掃描文件版面分析方法,其特征在于,所述步驟2中,對掃描文件原始彩色圖像進行圖像增強,并將增強后的圖像換為RGB三通道格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學,未經山東科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211119268.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:充電路面與光伏發電路面功能分開的太陽能公路系統
- 下一篇:一種卷線盤繞線設備





