[發明專利]一種字符版面確定方法及裝置有效
| 申請號: | 201710799346.6 | 申請日: | 2017-09-07 |
| 公開(公告)號: | CN109472257B | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 姜帆;郝志會 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06N3/04 |
| 代理公司: | 北京領科知識產權代理事務所(特殊普通合伙) 11690 | 代理人: | 張丹 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符 版面 確定 方法 裝置 | ||
本申請公開了一種字符版面確定方法及裝置,方法包括:將待測圖像輸入預先訓練的深度全卷積神經網絡模型,得到深度全卷積神經網絡模型輸出的組成字符行的像素點區域和組成字符行中軸的像素點區域;對組成字符行的像素點區域進行字符檢測,得到字符行區域包含的目標字符;根據目標字符與各中軸的像素點區域的位置關系,確定字符行區域所包含的各目標字符分別對應的中軸;同一字符行區域中對應于同一中軸的各目標字符,按照目標字符的位置與中軸的設定端點的距離關系,確定各目標字符的先后排序順序,該先后排序順序作為各目標字符的讀序。在本申請中,深度全卷積神經網絡模型針對不同圖像均能夠達到很好的字符版面識別準確性。
技術領域
本申請涉及目標檢測技術領域,更具體地說,涉及一種字符版面確定方法及裝置。
背景技術
隨著計算機技術和多媒體的飛速發展,越來越多的信息以圖像的形式傳播,圖像中通常存在大量包含重要信息的描述性文字。為了獲取圖像中的重要信息,需要對圖像中的文字進行識別及語義分析。而對圖像中的文字進行識別及語義分析的前提是對圖像中文字版面進行分析。
目前,文字版面分析方法往往僅分析具有一定文檔結構的文檔圖像(如掃描文檔圖像、表單圖像、信件圖像、名片圖像、報刊雜志等)的文本行區域,來確定文字版面。但對于文字版面結構本身復雜且由于拍攝時存在光照不均、背景復雜、視角畸變等問題,造成的文檔結構不清楚的自然場景圖像,采用現有方法進行文字版面分析的準確性低。
發明內容
有鑒于此,本申請提供了一種字符版面確定方法及裝置,用于解決現有文字版面分析準確性低的問題。
為了實現上述目的,現提出的方案如下:
一種字符版面確定方法,包括:
將待測圖像輸入預先訓練的深度全卷積神經網絡模型,得到所述深度全卷積神經網絡模型輸出的字符行區域圖像和中軸區域圖像,所述字符行區域圖像中包括:組成字符行的像素點區域和其余區域,所述中軸區域圖像中包括:組成字符行中軸的像素點區域和其余區域;所述深度全卷積神經網絡模型為預先利用標注有字符行及其中軸的真實區域的訓練圖像進行訓練得到;
對組成字符行的像素點區域進行字符檢測,得到字符行區域包含的目標字符的位置;
根據目標字符與各中軸的像素點區域的位置關系,確定字符行區域所包含的各目標字符分別對應的中軸;
同一字符行區域中對應于同一中軸的各目標字符,按照目標字符的位置與中軸的設定端點的距離關系,確定各目標字符的先后排序順序,該先后排序順序作為各目標字符的讀序。
優選的,所述根據目標字符與各中軸的像素點區域的位置關系,確定字符行區域所包含的各目標字符分別對應的中軸的步驟之前還包括:
采用骨架化算法,將各中軸的像素點區域細化為一條寬度為一個單位像素的曲線。
優選的,所述根據目標字符與各中軸的像素點區域的位置關系,確定字符行區域所包含的各目標字符分別對應的中軸的步驟包括:
針對各目標字符,確定目標字符所屬的字符行區域中包含的中軸的條數;
若僅有一條,則將該唯一一條中軸作為所述目標字符對應的中軸;
若至少包含兩條,則計算所述目標字符與包含的每一條中軸的最短距離值;
確定各最短距離值中最小的一個所對應的中軸,作為所述目標字符對應的中軸。
優選的,所述根據目標字符與各中軸的像素點區域的位置關系,確定字符行區域所包含的各目標字符分別對應的中軸的步驟包括:
針對各目標字符,計算所述目標字符與各中軸的最短距離值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710799346.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種東北虎動態蹤跡監測系統及方法
- 下一篇:跟蹤方法及裝置





