[發明專利]基于卷積神經網絡的印刷品字符區域提取方法有效
| 申請號: | 201711449254.1 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108021914B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 戴瓊海;戴威;劉燁斌 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34;G06K9/46;G06N3/04 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 印刷品 字符 區域 提取 方法 | ||
1.一種基于卷積神經網絡的印刷品字符區域提取方法,其特征在于,包括以下步驟:
通過卷積神經網絡從整個圖像角度對字符區域進行探測,獲取字符區域全局感知的字符候選圖像;其中,所述卷積神經網絡包括五級特征提取器,第一級特征提取器和第二級特征提取器每級分別包含兩個卷積ReLU層,第三級特征提取器、第四級特征提取器和第五級特征提取器每級分別包含三個卷積ReLU層,且除了第五級外每級網絡后連接一個2*2的最大池化層;在第一個卷積層加入一個35的pad,以將圖像寬高均增加70個像素,使得所述第五級特征提取器輸出圖像滿足預設條件,且在每級特征提取器的最后一個ReLU層后連接一個解卷積層,以作為側邊輸出,以及隨后連接一個裁剪層保證消除padding的影響,且保證側邊輸出圖像大小和標注圖片大小相同;在訓練階段,各個側邊輸出以及最后的輸出與標注圖片計算損失,將各級輸出按照可學習的參數比例進行融合輸出與標注圖片計算損失,兩種損失的和為整個網絡需要優化的損失函數,且通過隨機梯度下降法對所述神經網絡進行優化;
通過筆畫探測器探測圖像局部細節;其中,所述通過筆畫探測器探測圖像局部細節,進一步包括:獲取輸入圖像,得到灰度圖;根據所述灰度圖遍歷圖像得到特征點,且對所述特征點進行特征點非極化抑制,以輸出多個特征點;其中,所述筆畫探測器融合了角點特征與筆畫特征,所述筆畫探測器用于根據筆畫特點提取對應的特征點,以對筆畫細節進行識別,所述筆畫探測器能從局部筆畫信息角度對字符區域進行探測;所述筆畫探測器用于探測起止點特征點和拐點特征點,其中,所述起止點特征點包括字符筆畫的起點、終點,所述拐點特征點包括探測字符筆畫較平滑的拐點;以及
將所述字符候選圖像和所述圖像局部細節進行融合,以提取出印刷品字符區域;其中,所述將所述字符候選圖像和所述圖像局部細節進行融合,進一步包括:對所述字符候選圖像二值化;提取包含字符區域的多個輪廓,并根據輪廓區域面積對所述多個輪廓進行降序排列;將筆畫特征點根據位置與輪廓進行匹配,并排除面積小于預設閾值且沒有特征點的輪廓;對近似矩形的輪廓進行矩形優化處理,并對輪廓進行輕微膨脹操作;通過紅線提取出最終字符區域。
2.根據權利要求1所述的基于卷積神經網絡的印刷品字符區域提取方法,其特征在于,所述損失函數為:
L=Ls(W,Φ)+Lf(W,Φ,α),
其中,L為總的損失函數,Ls為網絡每一級側邊輸出的損失函數,W為卷積網絡中的參數,Φ為每一級側邊輸出分類器的參數,Lf為各級輸出融合后的損失函數,α為權重系數。
3.根據權利要求2所述的基于卷積神經網絡的印刷品字符區域提取方法,其特征在于,通過以下公式輸出結果:
其中,Yfuse為融合后的輸出結果,i為第i級側邊輸出,M為共有M級網絡,αi為第i級融合時候的權重,為第i級側邊輸出的結果,W為卷積網絡的參數,Φ(i)為第i級側邊輸出分類器的參數。
4.根據權利要求1所述的基于卷積神經網絡的印刷品字符區域提取方法,其特征在于,所述預設閾值為80。
5.一種基于卷積神經網絡的印刷品字符區域提取裝置,其特征在于,包括:
獲取模塊,用于通過卷積神經網絡從整個圖像角度對字符區域進行探測,獲取字符區域全局感知的字符候選圖像;其中,所述卷積神經網絡包括五級特征提取器,第一級特征提取器和第二級特征提取器每級分別包含兩個卷積ReLU層,第三級特征提取器、第四級特征提取器和第五級特征提取器每級分別包含三個卷積ReLU層,且除了第五級外每級網絡后連接一個2*2的最大池化層;在第一個卷積層加入一個35的pad,以將圖像寬高均增加70個像素,使得所述第五級特征提取器輸出圖像滿足預設條件,且在每級特征提取器的最后一個ReLU層后連接一個解卷積層,以作為側邊輸出,以及隨后連接一個裁剪層保證消除padding的影響,且保證側邊輸出圖像大小和標注圖片大小相同;在訓練階段,各個側邊輸出以及最后的輸出與標注圖片計算損失,將各級輸出按照可學習的參數比例進行融合輸出與標注圖片計算損失,兩種損失的和為整個網絡需要優化的損失函數,且通過隨機梯度下降法對所述神經網絡進行優化;
探測模塊,用于通過筆畫探測器探測圖像局部細節;其中,所述探測模塊,進一步用于:獲取輸入圖像,得到灰度圖;根據所述灰度圖遍歷圖像得到特征點,且對所述特征點進行特征點非極化抑制,以輸出多個特征點;其中,所述筆畫探測器融合了角點特征與筆畫特征,所述筆畫探測器用于根據筆畫特點提取對應的特征點,以對筆畫細節進行識別,所述筆畫探測器能從局部筆畫信息角度對字符區域進行探測;所述筆畫探測器用于探測起止點特征點和拐點特征點,其中,所述起止點特征點包括字符筆畫的起點、終點,所述拐點特征點包括探測字符筆畫較平滑的拐點;以及
提取模塊,用于將所述字符候選圖像和所述圖像局部細節進行融合,以提取出印刷品字符區域;
其中,所述提取模塊,具體用于:對所述字符候選圖像二值化;提取包含字符區域的多個輪廓,并根據輪廓區域面積對所述多個輪廓進行降序排列;將筆畫特征點根據位置與輪廓進行匹配,并排除面積小于預設閾值且沒有特征點的輪廓;對近似矩形的輪廓進行矩形優化處理,并對輪廓進行輕微膨脹操作;通過紅線提取出最終字符區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711449254.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新的注射用頭孢孟多酯鈉
- 下一篇:一種菱鎂礦尾礦透水混凝土及其制備方法





