[發(fā)明專利]文字識別方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 201910797941.5 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN111753836A | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 李小利;湯海萍 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京律智知識產(chǎn)權(quán)代理有限公司 11438 | 代理人: | 王輝;闞梓瑄 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字 識別 方法 裝置 計(jì)算機(jī) 可讀 介質(zhì) 電子設(shè)備 | ||
本公開實(shí)施例提供了一種文字識別方法、文字識別裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備,涉及圖像處理技術(shù)領(lǐng)域。該文字識別方法包括:識別待識別圖像的背景圖像,獲得掩膜圖像;根據(jù)所述掩膜圖像與所述待識別圖像,識別所述待識別圖像中包含的字符;將所述待識別圖像中包含的字符輸出為計(jì)算機(jī)可讀文字。本公開實(shí)施例的技術(shù)方案通過與背景圖像的特征相結(jié)合識別待識別圖像中包含的字符,從而提高文字的識別精度。
技術(shù)領(lǐng)域
本公開涉及圖像處理技術(shù)領(lǐng)域,具體而言,涉及一種文字識別方法、文字識別裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備。
背景技術(shù)
文字識別(optical character recognition,簡稱OCR)是指電子設(shè)備(如掃描儀、數(shù)碼相機(jī))通過掃描等光學(xué)輸入方式將紙質(zhì)或其他印刷品上的文字轉(zhuǎn)化為圖像信息,在利用字符識別方法將圖像翻譯成計(jì)算機(jī)文字的過程。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,文字識別領(lǐng)域在采用深度學(xué)習(xí)技術(shù)后,文字識別的準(zhǔn)確率得到大幅提高。現(xiàn)有的文字識別方法主要分為兩類,一種是通過提取原始圖像的特征進(jìn)行訓(xùn)練,使得訓(xùn)練后的模型識別出圖像中包含的文字。這種方法不區(qū)別圖像的前景和背景,如果背景中出現(xiàn)線條等易于與文本混淆的信息時(shí),會導(dǎo)致識別準(zhǔn)確性大大降低。而另一種方法通過對原始圖像進(jìn)行預(yù)處理操作只留下圖像的前景區(qū)域,從而對前景區(qū)域中包含的文字進(jìn)行識別。而這種方式對于原始圖像中前景和背景的定位并不精確,獲取的前景區(qū)域中攜帶較多噪聲信息,導(dǎo)致識別準(zhǔn)確性較低。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本公開實(shí)施例的目的在于提供一種文字識別方法、文字識別裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備,進(jìn)而至少在一定程度上克服文字識別的準(zhǔn)確率較低的問題。
本公開的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本公開的實(shí)踐而習(xí)得。
根據(jù)本公開實(shí)施例的第一方面,提供了一種文字識別方法,包括:識別待識別圖像的背景圖像,獲得掩膜特征;根據(jù)所述掩膜特征與所述待識別圖像,識別所述待識別圖像中包含的字符;將所述待識別圖像中包含的字符輸出為計(jì)算機(jī)可讀文字。
在本公開的一種示例性實(shí)施例中,所述識別待識別圖像的背景圖像,獲得掩膜特征,包括:確定所述待識別圖像的像素點(diǎn)屬于背景圖像的概率,得到第一特征值,所述掩膜特征包括所述第一特征值。
在本公開的一種示例性實(shí)施例中,所述識別待識別圖像的背景圖像,獲得掩膜特征,包括:根據(jù)所述第一特征值對所述待識別圖像進(jìn)行二值化,確定二值化后的待識別圖像為掩膜特征。
在本公開的一種示例性實(shí)施例中,所述結(jié)合所述掩膜特征與所述待識別圖像,識別所述待識別圖像中包含的字符,包括:確定所述掩膜特征的第一權(quán)重,確定所述待識別圖像的第二權(quán)重,其中,所述第一權(quán)重小于所述第二權(quán)重;基于所述第一權(quán)重及所述第二權(quán)重訓(xùn)練深度學(xué)習(xí)模型,以利用訓(xùn)練后的深度學(xué)習(xí)模型識別所述待識別圖像中包含的字符。
在本公開的一種示例性實(shí)施例中,所述結(jié)合所述掩膜特征與所述待識別圖像,識別所述待識別圖像中包含的字符,包括:對所述待識別圖像進(jìn)行第一卷積處理,獲取卷積處理后的特征圖;基于所述第一權(quán)重和所述第二權(quán)重,將所述掩膜特征與所述特征圖進(jìn)行第二卷積處理,以確定所述待識別圖像中包含的字符。
在本公開的一種示例性實(shí)施例中,所述確定所述待識別圖像的像素點(diǎn)屬于背景圖像的概率,包括:通過圖像分割算法對所述待識別圖像進(jìn)行處理,以確定所述待識別圖像的各像素點(diǎn)屬于背景圖像的概率。
在本公開的一種示例性實(shí)施例中,所述掩膜圖像與所述待識別圖像大小一致。
根據(jù)本公開實(shí)施例的第二方面,提供了一種文字識別裝置,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910797941.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





