[發明專利]基于深度神經網絡的版面分析方法、模型及電子設備在審
| 申請號: | 202110121922.8 | 申請日: | 2021-01-28 |
| 公開(公告)號: | CN112800963A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 吳若昊 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭州市鄭州高*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 版面 分析 方法 模型 電子設備 | ||
1.一種基于深度神經網絡的版面分析方法,其特征在于,所述方法包括:
獲取待分析的圖片,所述圖片包括一種或多種類型的元素區域;
采用基于深度級可分離卷積構造的版面分析模型對所述圖片進行版面分析;所述版面分析模型包括編碼路徑和解碼路徑,編碼路徑用來提取輸入圖片中的特征信息;解碼路徑用來從特征圖中還原圖片尺寸,恢復圖片中的語義信息,輸出按所述元素區域類型分割的分割圖。
2.根據權利要求1所述的方法,其特征在于,
在編碼路徑中,使用多組包含深度級可分離卷積單元的下采樣卷積模塊對特征圖進行下采樣;
在解碼路徑中,使用多組上采樣卷積模塊進行上采樣,將特征圖尺寸恢復至原輸入尺寸,解碼路徑中的上采樣卷積模塊融合了編碼路徑中下采樣卷積模塊輸出的對應尺寸大小的特征圖,融合的方式為特征圖不變,特征圖通道疊加。
3.根據權利要求1所述的方法,其特征在于,
所述版面分析模型的輸入為3通道圖片,輸出為5通道分割圖,5個通道分別對應的元素區域類型為:空白區域、標題區域、正文區域、圖片區域、圖標區域。
4.根據權利要求2所述的方法,其特征在于,
所述版面分析模型中的每個卷積單元后面均包含批量標準化BN層并使用線性整流函數RELU或RELU6作為激活函數。
5.根據權利要求1所述的方法,其特征在于,所述方法還包括:
使用條件隨機場CRF、馬爾科夫隨機場MRF或高斯條件隨機場G-CRF對版面分析模型的輸出進行調整以實現更精準的分割。
6.一種版面分析模型,其特征在于,該版面分析模型包括:
多個下采樣卷積模塊,由所述多個下采樣卷積模塊組成編碼路徑,編碼路徑用來對特征圖進行下采樣,提取輸入圖片中的特征信息;所述下采樣卷積模塊包括深度級可分離卷積單元;
多個上采樣卷積模塊,由所述多個上采樣卷積模塊組成解碼路徑,解碼路徑用來對特征圖進行上采樣,從特征圖中還原圖片尺寸,恢復圖片中的語義信息,輸出按元素區域類型分割的分割圖;所述上采樣卷積模塊融合了編碼路徑中下采樣卷積模塊輸出的對應尺寸大小的特征圖,融合的方式為特征圖不變,特征圖通道疊加;
所述版面分析模型的輸入為包括一種或多種類型的元素區域的圖片,輸出為基于元素區域分類的分割圖。
7.根據權利要求6所述的版面分析模型,其特征在于,所述版面分析模型還包括:
平均池化層,位于第N下采樣卷積模塊和第一上采樣卷積模塊之間,用于減小特征數量,避免過擬合;
輸出卷積模塊,用于對最后一級上采樣卷積模塊輸出的特征圖中進行壓縮,減少通道數量,輸出分割圖;
所述版面分析模型中的每個卷積單元后面均包含批量標準化BN層并使用線性整流函數RELU或RELU6作為激活函數。
8.根據權利要求6所述的版面分析模型,其特征在于,所述下采樣卷積模塊中包括:
第一卷積子模塊Conv Block1,其中包括卷積核為3*3、步長為1的深度級可分離卷積單元,及卷積核為1*1、步長為1的卷積單元;
第二卷積子模塊Conv Block2,其中包括卷積核為3*3、步長為2的深度級可分離卷積單元及卷積核為1*1、步長為1的傳統卷積單元;
所述第二卷積子模塊的一路輸出與對應的上采樣卷積模塊的輸入特征圖進行融合,另一路輸出給第一卷積子模塊,第一卷積子模塊的輸出即為該下采樣模塊的輸出。
9.根據權利要求6所述的版面分析模型,其特征在于,所述版面分析模型還包括:
調整層,用于使用條件隨機場CRF、馬爾科夫隨機場MRF或高斯條件隨機場G-CRF對版面分析模型的輸出進行調整以實現更精準的分割。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110121922.8/1.html,轉載請聲明來源鉆瓜專利網。





