[發(fā)明專利]一種基于深度學(xué)習(xí)OCR的圖書(shū)館圖書(shū)快速定位方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910326586.3 | 申請(qǐng)日: | 2019-04-23 |
| 公開(kāi)(公告)號(hào): | CN110321894B | 公開(kāi)(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計(jì))人: | 方路平;盛邱煬;潘清;李心怡;曹平 | 申請(qǐng)(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號(hào): | G06K9/34 | 分類號(hào): | G06K9/34;G06K9/32;G06T7/187 |
| 代理公司: | 杭州斯可睿專利事務(wù)所有限公司 33241 | 代理人: | 王利強(qiáng) |
| 地址: | 310014 浙江省*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) ocr 圖書(shū)館 圖書(shū) 快速 定位 方法 | ||
1.一種基于深度學(xué)習(xí)OCR的圖書(shū)館圖書(shū)快速定位方法,其特征在于,讀者已通過(guò)查閱圖書(shū)館終端主機(jī)方式獲知目標(biāo)書(shū)籍所在區(qū)域,以及目標(biāo)書(shū)籍的編號(hào),包括以下步驟:
(1)書(shū)脊識(shí)別準(zhǔn)備:拍攝目標(biāo)書(shū)籍所在書(shū)架區(qū)域的照片作為輸入圖像,并輸入目標(biāo)書(shū)籍的編號(hào);
(2)標(biāo)簽區(qū)域檢測(cè):使用FCN-32定位輸入圖像中的標(biāo)簽區(qū)域,并將標(biāo)簽區(qū)域子圖切割出饋送至下一步驟;
所述步驟(2)中,標(biāo)簽區(qū)域檢測(cè)過(guò)程如下:
(21)FCN-32對(duì)來(lái)自(1)的輸入圖像進(jìn)行分割,分割出一系列標(biāo)簽區(qū)域掩碼;
(22)利用二值圖像連通性分析技術(shù)和圖像處理算法處理標(biāo)簽區(qū)域分割掩碼,得到一系列形狀規(guī)則的連通區(qū)域,這些連通區(qū)域?qū)?yīng)的原圖位置即標(biāo)簽文字所在處,計(jì)算并記錄每個(gè)連通區(qū)域的位置;
(23)根據(jù)記錄的團(tuán)標(biāo)號(hào)及對(duì)應(yīng)位置信息,通過(guò)圖像的膨脹和腐蝕運(yùn)算,使各個(gè)團(tuán)變化為形狀規(guī)則的連通區(qū)域;
(24)根據(jù)獲得的連通區(qū)域輪廓及對(duì)應(yīng)位置信息,從原圖像中切割出所有的標(biāo)簽區(qū)域子圖,饋送至步驟(3);
所述(21)的處理過(guò)程如下:
(211)FCN-32由級(jí)聯(lián)的5個(gè)ConvBlock、2個(gè)FcBlock、上采樣層和輸出層組成,ConvBlock由卷積激活層和池化層組成,在卷積激活層中,卷積層卷積核尺寸為3×3,步長(zhǎng)為1,并具有補(bǔ)零運(yùn)算,激活層激活函數(shù)為Relu,而池化層執(zhí)行2×2的下采樣運(yùn)算,輸入圖像尺寸為L(zhǎng)×W,ConvBlock-1包含2個(gè)通道數(shù)為64的卷積激活層和一個(gè)池化層,輸出特征圖尺寸為(L/2,W/2,64),ConvBlock-2包含2個(gè)通道數(shù)為64的卷積激活層和一個(gè)池化層,輸出特征圖尺寸為(L/4,W/4,64),ConvBlock-3包含3個(gè)通道數(shù)為256的卷積激活層和一個(gè)池化層,輸出特征圖尺寸為(L/8,W/8,256),ConvBlock-4包含3個(gè)通道數(shù)為512的卷積激活層和一個(gè)池化層,輸出特征圖尺寸為(L/16,W/16,512),ConvBlock-5包含3個(gè)通道數(shù)為512的卷積激活層和一個(gè)池化層,輸出特征圖尺寸為(L/32,W/32,512),F(xiàn)cBlock-1由2個(gè)通道數(shù)為4096的卷積激活層組成,輸出特征圖尺寸為(L/32,W/32,4096),F(xiàn)cBlock-2由1個(gè)通道數(shù)為2的卷積層組成,輸出特征圖尺寸為(L/32,W/32,2),上采樣層使用雙線性插值算法恢復(fù)特征圖尺寸,輸出特征圖尺寸為(L,W,2),輸出層使用Softmax函數(shù);
(212)雙線性插值算法如下所述:
待插值位置坐標(biāo)為(x,y),已知四個(gè)點(diǎn)的值分別為Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)和Q22=(x2,y2),則雙線性插值結(jié)果f(x,y)為:
計(jì)算獲得的f(x,y)值需要先取整再進(jìn)行插值;
(213)Softmax函數(shù)σ(z)如下式所示:
其中,z為一K維向量,e為自然對(duì)底數(shù),輸出層輸出尺寸為(L,W,2)的預(yù)測(cè)概率圖,最終,根據(jù)設(shè)定的閾值,將預(yù)測(cè)概率圖轉(zhuǎn)化為輸入圖像的分割掩碼;
(213)Softmax函數(shù)σ(z)如下式所示:
其中,z為一K維向量,e為自然對(duì)底數(shù),輸出層輸出尺寸為(L,W,2)的預(yù)測(cè)概率圖,最終,根據(jù)設(shè)定的閾值,將預(yù)測(cè)概率圖轉(zhuǎn)化為輸入圖像的分割掩碼;
(3)標(biāo)簽文字識(shí)別:使用卷積模塊+序列模塊+解譯模塊三層模塊級(jí)聯(lián)的深度學(xué)習(xí)OCR方法識(shí)別標(biāo)簽區(qū)域子圖中的文字,即識(shí)別出書(shū)籍編號(hào),識(shí)別出的書(shū)籍編號(hào)被饋送至下一步驟;所述標(biāo)簽文字識(shí)別的過(guò)程如下:
(31)接受步驟(2)中獲得的標(biāo)簽區(qū)域子圖,調(diào)整至固定尺寸,輸入至三層深度OCR網(wǎng)絡(luò)中進(jìn)行文字行識(shí)別;
(32)卷積模塊基于傳統(tǒng)深度卷積網(wǎng)絡(luò)和空間變換網(wǎng)絡(luò)STN結(jié)構(gòu)實(shí)現(xiàn),接受固定尺寸的標(biāo)簽區(qū)域子圖,并提取其所包含的不同方向、字號(hào)、字體的文字的字符特征;
(33)序列模塊基于兩個(gè)疊加的雙向LSTM實(shí)現(xiàn),接受來(lái)自卷積模塊的字符特征序列,并預(yù)測(cè)特征序列中每一幀的標(biāo)簽分布;
(34)解譯模塊基于CTC實(shí)現(xiàn),解譯是將序列模塊輸出的每幀類別預(yù)測(cè)轉(zhuǎn)換為標(biāo)簽文字序列的過(guò)程,在網(wǎng)絡(luò)訓(xùn)練階段,CTC被當(dāng)作損失函數(shù)使用,避免了訓(xùn)練數(shù)據(jù)的額外對(duì)齊處理,以實(shí)現(xiàn)端到端的訓(xùn)練;
(4)目標(biāo)書(shū)籍定位步驟:將識(shí)別出的所有書(shū)籍編號(hào)與讀者輸入的目標(biāo)書(shū)籍編號(hào)進(jìn)行相似性匹配,相似性最高的書(shū)籍編號(hào)對(duì)應(yīng)的文字區(qū)域在照片中被醒目標(biāo)識(shí)出來(lái),即完成對(duì)目標(biāo)書(shū)籍的定位。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910326586.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種聚焦增強(qiáng)的場(chǎng)景文本識(shí)別網(wǎng)絡(luò)
- 下一篇:證件識(shí)別方法和裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- OCR文檔識(shí)別方法及其裝置
- 智能調(diào)度多OCR識(shí)別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識(shí)別方法、裝置和終端
- OCR識(shí)別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測(cè)方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評(píng)估方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識(shí)別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)





