[發明專利]一種圖像中文字目標檢測方法在審
| 申請號: | 201810520329.9 | 申請日: | 2018-05-28 |
| 公開(公告)號: | CN108764228A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 呂岳;呂淑靜;張茹玉 | 申請(專利權)人: | 嘉興善索智能科技有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天欣專利事務所(普通合伙) 33209 | 代理人: | 董力平 |
| 地址: | 314515 浙江省嘉興市桐*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 邊界框 目標檢測 特征層 融合算法 位置區域 圖像 融合 卷積神經網絡 神經網絡預測 圖像處理技術 圖像目標檢測 自然場景圖像 模式識別 目標識別 融合網絡 圖像文字 預測圖像 候選框 中文字 準確率 構建 尺度 輸出 檢測 預測 學習 | ||
1.一種圖像中文字目標檢測方法,其特征在于,包括以下步驟:
步驟一:構建一個端到端的基于特征層融合的卷積神經網絡,用于預測圖像中不同尺度的文字目標;
步驟二:根據特征層融合網絡輸出的候選框,使用邊界框融合算法獲取最終的圖像文字目標檢測結果。
2.根據權利要求1所述的一種圖像中文字目標檢測方法,其特征在于,構建一個端到端的基于特征層融合的卷積神經網絡,用于檢測圖像中的文字目標的位置,具體包括以下步驟:
(1)構建一個前向傳播的卷積神經網絡,前置網絡是VGG-16,其中,最后兩層全連接層替換為卷積層,在前置網絡結構之后,添加了額外的卷積層和池化層;
(2)在前向傳播網絡的基礎上,將最高層的特征層與其他特征層之間分別加入反卷積層,使反卷積后的特征圖尺度與低層特征層中特征圖的尺度保持一致;
(3)將反卷積后特征圖與低層特征層的特征圖使用元素點積方式進行融合,得到新的特征層,新的特征層作為輸出層,用于輸出目標對象的位置和置信度;
(4)在輸出層上定義一系列固定大小的默認框,定義輸出層輸出文本的置信度和相對于默認框的偏移坐標。
3.根據權利要求2所述的一種圖像中文字目標檢測方法,其特征在于,基于特征層融合的卷積神經網絡,設置特征層融合網絡輸出層輸出目標邊界框的尺度,具體包括:
(1)選擇最高層特征層以及最高層特征層與其他特征層融合形成的特征層作為網絡的輸出層;
(2)設置每個輸出層中默認框的大小,輸出層輸出目標邊界框相對于默認框的偏移坐標和置信度,得到候選的目標邊界框,設置低層輸出層預測小尺度的目標對象,高層輸出層預測大尺度的文字目標對象。
4.根據權利要求1所述的一種圖像中文字目標檢測方法,其特征在于,特征層融合網絡輸出的候選邊界框,使用邊界框融合算法獲取文字目標的最終位置,具體包括以下步驟:
(1)將文字目標的候選邊界框按照置信度的值從高到低排序,選取第一個候選邊界框作為當前融合的邊界框;
(2)將其他候選邊界框作為被融合的邊界框,比較當前融合邊界框與被融合邊界的置信度若兩個文本框的置信度均大于閾值α,則計算當前融合邊界框與被融合邊界框的面積交疊率,否則,執行步驟(3);
(3)如果兩個候選邊界框的面積交疊率高于等于閾值β,融合兩個邊界框,融合后的邊界框為兩個邊界框的外界矩形框,置信度為融合邊界框的置信度;
(4)如果兩個候選邊界框的面積交疊率小于閾值β,計算兩個邊界框的包含重疊率,如果兩個邊界框的包含重疊率大于閾值γ,移除該邊界框,否則,執行步驟(5);
(5)如果只剩最后一個文本框,算法結束,選擇置信度高于閾值δ的文本框作為最終目標檢測結果;
否則,更新文字目標的候選邊界框,按照之前排列好的順序,取下一個未被融合的邊界框作為融合文本框,執行步驟(2)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于嘉興善索智能科技有限公司,未經嘉興善索智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810520329.9/1.html,轉載請聲明來源鉆瓜專利網。





