[發明專利]一種文檔版面分析方法在審
| 申請號: | 202010637093.4 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111881768A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 王波;張百靈;周炬;朱華柏 | 申請(專利權)人: | 蘇州開心盒子軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京尚倫律師事務所 11477 | 代理人: | 陳紅亮 |
| 地址: | 215123 江蘇省蘇州市蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 版面 分析 方法 | ||
本發明公開了一種文檔版面分析方法,該方法包括將輸入的版面圖像縮放成3種尺度的圖像;將各個尺度的圖像進行特征的提取和融合;將融合后的圖像特征送入分割網絡主干進行語義信息特征的提取;將具有高語義信息的高層低分辨率特征進行上采樣,再與具有豐富空間細節信息的低層高分辨率特征進行融合;根據不同版面元素的屬性,設置相應的分割網絡分支進行分割識別,同時,將輸出的特征圖像恢復到預先指定的分辨率,完成文檔版面分析。采用了本發明的技術方案,能夠融合多尺度輸入圖像,增加分割網絡對不同尺度輸入圖像的適應能力,降低輸入圖像縮放操作對模型的影響,針對版面元素不同屬性增加不同分割網絡分支,降低不同版面元素的相互影響。
技術領域
本發明涉及光學字符識別技術領域,尤其涉及一種文檔版面分析方法。
背景技術
版面分析是光學字符識別(OCR)系統的基本步驟之一,是對文檔版面中的圖像、文本、表格特征和位置關系進行分析、識別和理解的過程。版面分析結果的優劣會直接影響到OCR后續模塊的性能,隨著深度學習的發展,基于深度學習的文檔版面分析系統逐漸成為主流方法。
由于圖像語義分割技術具有像素級別的識別和定位能力,非常適用于文檔版面分析任務。眾所周知,文字是一種稀疏的非剛體結構,其尺度變化大、結構復雜、種類繁多、含有極為豐富的語義信息。因此,相比于通用物體的圖像處理過程,文檔版面對圖像的縮放操作更加敏感,如果操作不當很容易導致文字嚴重變形、模糊,甚至丟失其所包含的語義信息。這些原因導致基于語義分割的文檔版面分析方法需要輸入圖像和輸出特征圖都具有較高的分辨率,才能保證有較高的精確度。但是,高分辨率的文檔圖像版面分析不僅會增加深度神經網絡模型的復雜度,而且也會增加其計算負荷和顯存需求。
另一方面,文檔版面的結構非常復雜,大多數文檔都存在不同版面元素互相嵌套、交叉重疊的現象。如復雜圖像作為文字等的頁面背景,表格中含有圖像,手寫字體與打印字體混雜,以及頁面中存在深色水印、印章和文字類圖標等。然而,通常文本數據的標注方式大都沿襲通用目標檢測的標注方法,使用矩形框的大區域塊狀標注。這種標注方法雖然簡便、成本低,但不適合于應用于圖像語義分割的數據標注,會降低模型訓練的精度。通用的使用多邊形標注語義分割數據的方式會嚴重增加標注成本,而且一個像素還是只能匹配一個標簽,并不解決版面元素交叉重疊的問題,這些現象最終都會導致版面元素相互影響,精度低、分割版面雜亂細碎且不規則。
發明內容
為克服相關技術中存在的問題,本發明實施例提供一種文檔版面分析方法,能夠融合多尺度的輸入圖像,增加分割網絡對不同尺度輸入圖像的適應能力,降低輸入圖像縮放操作對模型的影響,針對版面元素的不同屬性增加不同的分割網絡分支,降低不同版面元素的相互影響。
本發明實施例提供一種文檔版面分析方法,包括以下步驟:
將輸入的版面圖像縮放成3種尺度的圖像;
將各個尺度的圖像進行特征的提取和融合;
將融合后的圖像特征送入分割網絡主干進行語義信息特征的提取;
將具有高語義信息的高層低分辨率特征進行上采樣,再與具有豐富空間細節信息的低層高分辨率特征進行融合;
根據不同版面元素的屬性,設置相應的分割網絡分支進行分割識別,同時,將輸出的特征圖像恢復到預先指定的分辨率,完成文檔版面分析。
所述將輸入的版面圖像縮放成3種尺度的圖像,進一步包括以下步驟:
將輸入的版面圖像進行2倍和0.5倍的縮放操作,獲得3種尺度的圖像。
所述將多尺度的文本圖像進行特征的提取和融合,進一步包括以下步驟:
將所述2倍尺度的版面圖像經過輸出特征通道數為16、步長為2的3×3的卷積層進行下采樣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州開心盒子軟件有限公司,未經蘇州開心盒子軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010637093.4/2.html,轉載請聲明來源鉆瓜專利網。





