[發(fā)明專利]圖像識別的方法及裝置有效
| 申請?zhí)枺?/td> | 201910831740.2 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110674811B | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設(shè)計)人: | 劉學(xué)文 | 申請(專利權(quán))人: | 廣東浪潮大數(shù)據(jù)研究有限公司 |
| 主分類號: | G06V30/146 | 分類號: | G06V30/146;G06V30/148;G06N3/04 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 李慧引 |
| 地址: | 510620 廣東省廣州市天河區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖像 識別 方法 裝置 | ||
本發(fā)明提供了一種圖像識別的方法及裝置,該方法包括:通過獲取待識別圖像;其中,所述待識別圖像顯示有一行待識別文本;利用目標(biāo)檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息;根據(jù)所述待識別文本的每一個文字的位置信息對所述待識別圖像進行分割,得到多個子圖像;其中,每個所述子圖像均顯示有一個所述文字;利用文字識別?卷積神經(jīng)網(wǎng)絡(luò)模型對所述每一個所述子圖像進行處理,識別出每一個所述子圖像中的文字;將識別得到的每一個文字按所述文字的位置信息排列,得到所述待識別圖像的識別結(jié)果。達到提高對圖中文字分割的精確度,從而提高文字識別的精確度的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,特別涉及一種圖像識別的方法及裝置。
背景技術(shù)
圖像中的文字識別在許多領(lǐng)域有著廣泛的需求,相關(guān)應(yīng)用涉及了身份證識別、車牌號識別、快遞單識別、銀行卡號識別等等。圖像中的文字識別通常需要將每個文字從圖像中分割下來,而傳統(tǒng)的方法是先對圖像中的文字進行水平分割,在對分割出來的每一行進行垂直投影,找到每一個文字的左右邊界后,在進行單個文字的分割,再將分割后的字符圖像利用設(shè)計好的模型進行文字識別。
然而,由于漢字之間可能排列的比較緊密以及漢字中存在很多左右偏旁結(jié)構(gòu)的字,導(dǎo)致如果利用垂直投影后,再進行垂直切割時,很容易造成過度分割。從而導(dǎo)致后續(xù)利用設(shè)計好的模型進行文字識別的過程中,對文字識別的精確度不高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種圖像識別的方法及裝置,用于提高對圖中文字分割的精確度,從而提高文字識別的精確度。
為實現(xiàn)上述目的,本發(fā)明實施例提供如下技術(shù)方案:
一種圖像識別的方法,包括:
獲取待識別圖像;其中,所述待識別圖像顯示有一行待識別文本;
利用目標(biāo)檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息;
根據(jù)所述待識別文本的每一個文字的位置信息對所述待識別圖像進行分割,得到多個子圖像;其中,每個所述子圖像均顯示有一個所述文字;
利用文字識別-卷積神經(jīng)網(wǎng)絡(luò)模型對所述每一個所述子圖像進行處理,識別出每一個所述子圖像中的文字;
將識別得到的每一個文字按所述文字的位置信息排列,得到所述待識別圖像的識別結(jié)果。
可選的,所述利用目標(biāo)檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息之前,還包括:
判斷所述待識別圖像顯示的待識別文本是否為多行;
若判斷出所述待識別圖像顯示的待識別文本為多行,則找到每一行的上界限和下界限,進行水平切割得到多個所述待識別子文本。
可選的,所述利用目標(biāo)檢測算法模型對所述待識別圖像進行處理,得到組成所述待識別文本的每一個文字的位置信息,包括:
判斷所述待識別文本的大小是否符合預(yù)設(shè)大小;
若判斷出所述待識別文本的大小不符合所述預(yù)設(shè)大小,則將所述待識別文本的大小變更為所述預(yù)設(shè)大小;
記錄在所述待識別文本變更為所述預(yù)設(shè)大小后,所述待識別文本中的每個漢字的位置(xmin,ymin,xmax,ymax);其中,(xmin,ymin)和(xmax,ymax)分別是所述漢字的左上角坐標(biāo)和右下角坐標(biāo)。
可選的,所述記錄在所述待識別文本變更為所述預(yù)設(shè)大小后,所述待識別文本中的每個漢字的位置(xmin,ymin,xmax,ymax)之后,還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東浪潮大數(shù)據(jù)研究有限公司,未經(jīng)廣東浪潮大數(shù)據(jù)研究有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910831740.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





