[發明專利]圖像識別的方法及裝置有效
| 申請號: | 201910831740.2 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110674811B | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 劉學文 | 申請(專利權)人: | 廣東浪潮大數據研究有限公司 |
| 主分類號: | G06V30/146 | 分類號: | G06V30/146;G06V30/148;G06N3/04 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李慧引 |
| 地址: | 510620 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 識別 方法 裝置 | ||
1.一種圖像識別的方法,其特征在于,包括:
獲取待識別圖像;其中,所述待識別圖像顯示有一行待識別文本;
利用目標檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息,包括:判斷所述待識別文本的大小是否符合預設大小,若判斷出所述待識別文本的大小不符合所述預設大小,則將所述待識別文本的大小變更為所述預設大小,記錄在所述待識別文本變更為所述預設大小后,所述待識別文本中的每個漢字的位置(xmin,ymin,xmax,ymax);其中,(xmin,ymin)和(xmax,ymax)分別是所述漢字的左上角坐標和右下角坐標,所述將所述待識別文本的大小變更為所述預設大小包括:若所述待識別文本的大小小于預設大小,則將所述待識別文本的下面補上空白部分以調整圖像樣本的大小至預設大小,若所述待識別文本的大小大于預設大小,則將不包括文字的部分進行分割;
根據所述待識別文本的每一個文字的位置信息對所述待識別圖像進行分割,得到多個子圖像;其中,每個所述子圖像均顯示有一個所述文字;
利用文字識別-卷積神經網絡模型對所述每一個所述子圖像進行處理,識別出每一個所述子圖像中的文字;
將識別得到的每一個文字按所述文字的位置信息排列,得到所述待識別圖像的識別結果。
2.根據權利要求1所述的方法,其特征在于,所述利用目標檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息之前,還包括:
判斷所述待識別圖像顯示的待識別文本是否為多行;
若判斷出所述待識別圖像顯示的待識別文本為多行,則找到每一行的上界限和下界限,進行水平切割得到多個所述待識別子文本。
3.根據權利要求1所述的方法,其特征在于,所述記錄在所述待識別文本變更為所述預設大小后,所述待識別文本中的每個漢字的位置(xmin,ymin,xmax,ymax)之后,還包括:
利用預設的錨,對所述待識別文本中的每個漢字大小進行識別,確認所述待識別文本中的每個漢字的大??;其中,所述預設的錨的大小為(10,10)、(20,20)、(30,30)、(40,40)、(50,50)和(60,60)。
4.根據權利要求1所述的方法,其特征在于,所述利用文字識別-卷積神經網絡模型對所述每一個所述子圖像進行處理,識別出每一個所述子圖像中的文字之前,還包括:
按照預設的單個文字的大小調整所述每一個所述子圖像的大小。
5.一種圖像識別的裝置,其特征在于,包括:
獲取單元,用于獲取待識別圖像;其中,所述待識別圖像顯示有一行待識別文本;
第一處理單元,用于利用目標檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息;
分割單元,用于根據所述待識別文本的每一個文字的位置信息對所述待識別圖像進行分割,得到多個子圖像;其中,每個所述子圖像均顯示有一個所述文字;
第二處理單元,用于利用文字識別-卷積神經網絡模型對所述每一個所述子圖像進行處理,識別出每一個所述子圖像中的文字;
排列單元,用于將識別得到的每一個文字按所述文字的位置信息排列,得到所述待識別圖像的識別結果;
所述第一處理單元,包括:
第二判斷單元,用于判斷所述待識別文本的大小是否符合預設大??;
變更單元,用于若所述第二判斷單元判斷出,所述待識別文本的大小不符合所述預設大小,則將所述待識別文本的大小變更為所述預設大小,所述將所述待識別文本的大小變更為所述預設大小包括:若所述待識別文本的大小小于預設大小,則將所述待識別文本的下面補上空白部分以調整圖像樣本的大小至預設大小,若所述待識別文本的大小大于預設大小,則將不包括文字的部分進行分割;
記錄單元,用于記錄在所述待識別文本變更為所述預設大小后,所述待識別文本中的每個漢字的位置(xmin,ymin,xmax,ymax);其中,(xmin,ymin)和(xmax,ymax)分別是所述漢字的左上角坐標和右下角坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東浪潮大數據研究有限公司,未經廣東浪潮大數據研究有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910831740.2/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





