[發(fā)明專利]一種文本版面分析方法、裝置、設備和介質在審
| 申請?zhí)枺?/td> | 202010635621.2 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111914654A | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設計)人: | 王波;張百靈;周炬;朱華柏 | 申請(專利權)人: | 蘇州開心盒子軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 215123 江蘇省蘇州市蘇州工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 版面 分析 方法 裝置 設備 介質 | ||
1.一種文本版面分析方法,其特征在于,包括:
獲取待分析的文本圖像,對所述文本圖像進行預處理;
將所述文本圖像輸入語義分割算法模型進行版面分析,以確定所述文本圖像中的版面元素;
其中,所述語義分割算法模型包含編碼階段和解碼階段;
所述編碼階段,用于將殘差網絡模型中不同階段的高語義特征與高分辨率網絡分支中的高分辨率語義特征以元素相加的方式進行特征融合;
所述解碼器階段,用于將所述編碼階段最后一個階段提取的高語義特征上采樣后與所述編碼階段最后一個特征融合單元輸出的高分辨率語義特征以拼接的方式進行特征融合,以確定所述文本圖像中的版面元素。
2.根據(jù)權利要求1所述的方法,其特征在于,對所述文本圖像進行預處理,包括:
在深度網絡模型訓練階段對所述文本圖像進行隨機的數(shù)據(jù)增強操作;
對訓練和測試文本圖像進行圖像歸一化處理和高斯雙邊濾波處理。
3.根據(jù)權利要求1所述的方法,其特征在于,所述編碼階段為殘差網絡模型和DenseASPP模型組成,則通過所述殘差網絡模型提取不同階段的高語義特征,包括:
所述殘差網絡模型Resnet-50包含4個網絡單元;
每個網絡單元,用于提取對應階段的高語義特征;
所述提取對應階段的高語義特征,包括:
Resnet-50中4個不同階段的網絡單元分別包含多個瓶頸殘差模塊;
Resnet-50前3個網絡單元中的第1個瓶頸殘差模塊會對輸入文本圖像特征進行下采樣,以更新當前網絡單元輸入特征的分辨率,其中,每個單元中的后續(xù)瓶頸殘差模塊提取高語義特征,將當前網絡單元提取的高語義特征分別輸入至下一個網絡單元和特征融合單元,并作為第一階段輸出的高語義特征;
Resnet-50中第四個網絡單元中的瓶頸殘差模塊采用膨脹/空洞卷積操作在保持第四階段特征分辨率的同時擴大感受野;
將Resnet-50中第四個網絡單元輸出的高語義特征輸入DenseASPP模型進行多尺度特征融合操作,以提取高語義特征。
4.根據(jù)權利要求3所述的方法,其特征在于,所述殘差網絡模型Resnet-50包含4個網絡單元,最后Resnet-50網絡進行下采樣后的特征分辨率降至原輸入圖像分辨率的1/32。
5.根據(jù)權利要求1所述的方法,其特征在于,所述編碼階段,用于將殘差網絡模型中不同階段的高語義特征與高分辨率網絡分支中的高分辨率語義特征以元素相加的方式進行特征融合,包括:
將所述高分辨率網絡分支的高分辨率特征通過3×3卷積層和BN正則化層后,獲取待融合的高分辨率特征;
同時,將殘差網絡模型中第一階段輸出的高語義特征通過1×1卷積層和BN正則化層,并將該所述高語義特征的通道數(shù)降維至與所述待融合的高分辨率特征通道數(shù)一致,再通過雙線性插值上采樣將高語義特征的大小與所述待融合的高分辨率語義特征的大小保持一致,獲得處理后的第一階段高分率融合語義特征;
以元素相加的方式將所述處理后的第一階段高分率融合語義特征與所述待融合的高分辨率語義特征進行融合后,獲得融合高分辨率語義特征;將所述融合高分辨率語義特征通過Relu激活層后,依次輸入3×3卷積層、BN正則化層和Relu激活層進行處理后,以作為第二階段輸入的高分辨率語義特征;循環(huán)上述步驟,獲得殘差網絡模型中第四階段輸出的高語義特征,第三個特征融合單元輸出的高分辨率語義特征;
將所述第四階段輸出的高語義特征輸入DenseASPP模型進行處理,再經上采樣后與所述第三個特征融合單元輸出的高分辨率語義特征以拼接的方式進行特征融合后,通過3×3卷積層、BN正則化層、Relu激活層,以確定融合后輸出圖像特征。
6.根據(jù)權利要求1所述的方法,其特征在于,所述編碼階段,用于將殘差網絡模型中不同階段的高語義特征與高分辨率網絡分支中的高分辨率語義特征以元素相加的方式進行特征融合之前,還包括:
將文本圖像特征通過3次依次相連的3×3卷積層+BN正化則層+Relu激活層操作,經過下采樣后得到特征圖的大小為所述文本圖像原始分辨率大小的1/4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州開心盒子軟件有限公司,未經蘇州開心盒子軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010635621.2/1.html,轉載請聲明來源鉆瓜專利網。





