[發明專利]一種面向礦井多源異構圖文信息的文本識別方法及裝置在審
| 申請號: | 202011566285.7 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112633287A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 江曼;郭林;程德強;寇旗旗 | 申請(專利權)人: | 中國礦業大學;江蘇華圖礦業科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06N3/08;G06N3/04 |
| 代理公司: | 北京天達知識產權代理事務所(普通合伙) 11386 | 代理人: | 竇艷鵬 |
| 地址: | 221116 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 礦井 多源異 構圖 信息 文本 識別 方法 裝置 | ||
1.一種面向礦井多源異構圖文信息的文本識別方法,其特征在于,包括下述步驟:
獲取包含礦井多源異構圖文信息的原始輸入圖像;
基于分割建議網絡SPN對所述原始輸入圖像進行分割,得到原始輸入圖像的文本建議區域;
對所述文本建議區域進行特征提取,得到原始輸入圖像的超分辨率文本建議區域;
基于快速卷積神經網絡Fast R-CNN和所述超分辨率文本建議區域獲取原始輸入圖像的文本檢測框;
基于循環神經網絡RNN提取所述文本檢測框中的字符,得到原始輸入圖像中的礦井多源異構圖文信息。
2.根據權利要求1所述的面向礦井多源異構圖文信息的文本識別方法,其特征在于,所述分割建議網絡SPN包括:
卷積池化層,用于提取所述原始輸入圖像的特征映射;
連接裁剪層,用于對所述卷積池化層輸出的原始輸入圖像的特征映射進行裁剪,得到多個特征映射;
融合層,用于對所述連接裁剪層輸出的多個特征映射進行融合,得到特征映射圖;
歸一化層,用于對所述融合層輸出的特征映射圖進行歸一化,得到文本建議分割圖;
二值化層,用于對所述歸一化層輸出的文本建議分割圖進行二值化,得到多個特征映射圖;
像素修剪層,用于對所述二值化層輸出的每一個特征映射圖分別進行像素修剪,得到每一個特征映射圖對應的文本建議區域。
3.根據權利要求2所述的面向礦井多源異構圖文信息的文本識別方法,其特征在于,對所述文本建議區域進行特征提取,得到原始輸入圖像的超分辨率文本建議區域,包括下述步驟:
基于高斯模糊和4倍上下采樣對所述文本建議區域進行特征增強,得到文本特征圖,公式如下:
式中,Dp為文本特征圖,D為文本建議區域,fgau()表示高斯模糊函數,fd-u()表示4倍上下采樣,p1、p2均為文本建議區域D中的隨機像素,且滿足p1∈[0,1],p2∈[0,1],α為隨機參數;
基于ResNet-50網絡對所述文本特征圖進行超分辨率恢復,得到超分辨率文本建議區域。
4.根據權利要求1所述的面向礦井多源異構圖文信息的文本識別方法,其特征在于,所述快速卷積神經網絡Fast R-CNN包括依次連接的13個卷積層,4個池化層,1個ROI池化層,2個全連接層和2個平級層。
5.根據權利要求4所述的面向礦井多源異構圖文信息的文本識別方法,其特征在于,基于快速卷積神經網絡Fast R-CNN和所述超分辨率文本建議區域獲取原始輸入圖像的文本檢測框,包括下述步驟:
將所述超分辨率文本建議區域輸入Fast R-CNN網絡,獲得超分辨率文本建議區域相對于實際文本區域的位置偏移量,所述實際文本區域為原始輸入圖像對應的文本區域;
基于偏移所述位置偏移量后的超分辨率文本建議區域獲得分類得分,并進行分類得分排序,并將分類得分最高的區域作為文件檢測框。
6.根據權利要求5所述的面向礦井多源異構圖文信息的文本識別方法,其特征在于,基于循環神經網絡RNN提取所述文本檢測框中的字符,得到原始輸入圖像中的礦井多源異構圖文信息,包括下述步驟:
將所述文本檢測框擴展為文本檢測框對應的特征圖;
將所述文本檢測框對應的特征圖輸入循環神經網絡RNN中,獲得原始輸入圖像中的礦井多源異構圖文信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學;江蘇華圖礦業科技有限公司,未經中國礦業大學;江蘇華圖礦業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011566285.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機器人
- 下一篇:通過車輛識別號解析銷售車型的方法及裝置





