[發(fā)明專利]構(gòu)建字符識別模型與識別字符的方法和裝置有效
| 申請?zhí)枺?/td> | 201910477704.0 | 申請日: | 2019-06-03 |
| 公開(公告)號: | CN110222693B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計(jì))人: | 韓景濤;曾華榮;韓鋒 | 申請(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06N3/04;G06N3/08 |
| 代理公司: | 北京展翼知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11452 | 代理人: | 王明遠(yuǎn) |
| 地址: | 100085 北京市海淀區(qū)上*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 構(gòu)建 字符 識別 模型 方法 裝置 | ||
提供了一種構(gòu)建字符識別模型與識別字符的方法和裝置。本發(fā)明中的特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括第一特征提取網(wǎng)絡(luò)結(jié)構(gòu)或者第二特征提取網(wǎng)絡(luò)結(jié)構(gòu),第一特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括至少一層第一特征提取單元,第一特征提取單元包括依次連接的第一卷積層、第一激活函數(shù)層、第二卷積層、第一批標(biāo)準(zhǔn)化層、第二激活函數(shù)層以及第一池化層;第二特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括至少一層第二特征提取單元,第二特征提取單元包括依次連接的第三卷積層、第三激活函數(shù)層、第四卷積層、第四激活函數(shù)層、第二批標(biāo)準(zhǔn)化層以及第二池化層。在字符識別過程中,通過利用該特征提取網(wǎng)絡(luò)結(jié)構(gòu)對圖片進(jìn)行特征提取,可以在大大降低對計(jì)算資源的要求的同時(shí),做到比主流架構(gòu)更好的特征提取效果。
技術(shù)領(lǐng)域
本發(fā)明總體說來涉及字符識別技術(shù)領(lǐng)域,更具體地說,涉及一種構(gòu)建字符識別模型的方法和裝置,基于字符識別模型識別圖片中字符的方法和裝置,以及系統(tǒng)和存儲介質(zhì)。
背景技術(shù)
字符識別是計(jì)算機(jī)視覺研究領(lǐng)域的一個(gè)分支。隨著科技的發(fā)展,字符識別技術(shù)的應(yīng)用越來越廣泛。例如,當(dāng)車輛進(jìn)入停車場、收費(fèi)站時(shí),通過利用字符識別技術(shù)自動識別車牌,可以免去人工登記步驟,節(jié)省人力資源。再例如,通過字符識別技術(shù)自動識別出發(fā)票中的交易金額、納稅人識別號、開戶行等發(fā)票信息,可以免去人工錄入操作,節(jié)省人力資源。
目前主要是利用神經(jīng)網(wǎng)絡(luò)技術(shù)來實(shí)現(xiàn)字符識別。基于神經(jīng)網(wǎng)絡(luò)技術(shù)的字符識別方案,主要是利用vgg16、ResNet等經(jīng)典網(wǎng)絡(luò)骨架來進(jìn)行特征提取,但是vgg16、ResNet等經(jīng)典網(wǎng)絡(luò)骨架往往包含上億參數(shù),對計(jì)算資源要求較高。
發(fā)明內(nèi)容
本發(fā)明的示例性實(shí)施例旨在克服字符識別過程中特征提取部分所需計(jì)算量較高的缺陷。
根據(jù)本發(fā)明的第一個(gè)方面,提出了一種基于字符識別模型識別圖片中字符的方法,其中,字符識別模型包括特征提取模塊和識別模塊,方法包括:將預(yù)測圖片輸入特征提取模塊,得到特征提取模塊輸出的特征矩陣;其中,特征提取模塊包括第一特征提取網(wǎng)絡(luò)結(jié)構(gòu)或者第二特征提取網(wǎng)絡(luò)結(jié)構(gòu);第一特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括至少一層第一特征提取單元,第一特征提取單元包括依次連接的第一卷積層、第一激活函數(shù)層、第二卷積層、第一批標(biāo)準(zhǔn)化層、第二激活函數(shù)層以及第一池化層;第二特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括至少一層第二特征提取單元,第二特征提取單元包括依次連接的第三卷積層、第三激活函數(shù)層、第四卷積層、第四激活函數(shù)層、第二批標(biāo)準(zhǔn)化層以及第二池化層;將特征矩陣輸入識別模塊,得到識別模塊輸出的字符識別結(jié)果。
可選地,在第一特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括至少兩層第一特征提取單元的情況下,在后的第一特征提取單元中卷積層中的卷積核的個(gè)數(shù)是在前的第一特征提取單元中卷積層中的卷積核的個(gè)數(shù)的M倍,其中M≥2,并且/或者在第二特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括至少兩層第二特征提取單元的情況下,在后的第二特征提取單元中卷積層中的卷積核的個(gè)數(shù)是在前的第二特征提取單元中卷積層中的卷積核的個(gè)數(shù)的N倍,其中N≥2。
可選地,識別模塊包括概率生成單元和解碼單元,將特征矩陣輸入識別模塊,得到識別模塊輸出的字符識別結(jié)果的步驟包括:將特征矩陣輸入概率生成單元,以得到概率矩陣,其中,概率矩陣中的每個(gè)列向量用于表征預(yù)測圖片中的一塊區(qū)域所包含的字符的概率分布,列向量中的每個(gè)元素對應(yīng)于一個(gè)字符,元素的取值用于表征該區(qū)域包含的字符是該元素所對應(yīng)的字符的概率;將概率矩陣輸入解碼單元,得到解碼單元生成的預(yù)測圖片包含的字符的識別結(jié)果。
可選地,將特征矩陣輸入概率生成單元,以得到概率矩陣的步驟包括:概率生成單元為循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將特征矩陣中的列向量依次輸入循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以得到由循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)輸出的概率矩陣。
可選地,循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的隱藏層中神經(jīng)元的個(gè)數(shù)是根據(jù)字符解空間的大小設(shè)定的,并且/或者循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸出層中神經(jīng)元的個(gè)數(shù)與字符解空間的大小之間的差值的絕對值小于第三預(yù)定閾值。
可選地,循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的隱藏層中神經(jīng)元的個(gè)數(shù)與字符解空間的大小正相關(guān)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910477704.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





