[發(fā)明專利]一種基于深度學(xué)習(xí)OCR的圖書館圖書快速定位方法有效
| 申請?zhí)枺?/td> | 201910326586.3 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN110321894B | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計)人: | 方路平;盛邱煬;潘清;李心怡;曹平 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/32;G06T7/187 |
| 代理公司: | 杭州斯可睿專利事務(wù)所有限公司 33241 | 代理人: | 王利強(qiáng) |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) ocr 圖書館 圖書 快速 定位 方法 | ||
一種基于深度學(xué)習(xí)OCR的圖書館圖書快速定位方法,包括以下步驟:(1)書脊識別準(zhǔn)備:拍攝目標(biāo)書籍所在書架區(qū)域的照片作為輸入圖像,并輸入目標(biāo)書籍的編號;(2)標(biāo)簽區(qū)域檢測:使用FCN?32定位輸入圖像中的標(biāo)簽區(qū)域,將標(biāo)簽區(qū)域子圖切割出饋送至(3);(3)標(biāo)簽文字識別:使用卷積模塊+序列模塊+解譯模塊三層模塊級聯(lián)的深度學(xué)習(xí)OCR方法識別標(biāo)簽區(qū)域子圖中的文字,即識別出書籍編號,并被饋送至(4);(4)目標(biāo)書籍定位步驟:將識別出的所有書籍編號與讀者輸入的目標(biāo)書籍編號進(jìn)行相似性匹配,相似性最高的書籍編號對應(yīng)的文字區(qū)域在照片中被醒目標(biāo)識出來。本發(fā)明在查閱圖書時能更快更方便地找出目標(biāo)書籍。
技術(shù)領(lǐng)域
本發(fā)明涉及光學(xué)字符識別、深度學(xué)習(xí)領(lǐng)域,具體為一種基于深度學(xué)習(xí)OCR的圖書館圖書快速定位方法。
背景技術(shù)
圖書館是整理、收藏圖書供人閱覽的機(jī)構(gòu),是人們最常用的獲取信息的渠道之一。人們?nèi)D書館查閱圖書時,通常會首先使用終端主機(jī)查閱目標(biāo)書籍的館藏信息,了解其所在區(qū)域。圖書在書架上的擺放很密集,標(biāo)簽字體很小,找出目標(biāo)書籍需逐一辨別書名或標(biāo)簽,比較吃力,對于視力不佳者、行動不便者而言尤其如此。使用技術(shù)手段來協(xié)助人們方便快捷地從書架上定位目標(biāo)書籍具有現(xiàn)實(shí)意義。
圖書館的圖書通常以一定的規(guī)則被編號收錄。其編號及部分基本信息記錄在一張矩形標(biāo)簽上,而矩形標(biāo)簽則被粘貼在圖書的書脊上。圖書的擺放形式通常是書脊朝外的,以便讀者查閱。如果能利用智能手機(jī)的拍照功能并對于照片中的圖書標(biāo)簽進(jìn)行自動定位識別,則可以幫助讀者快速找到目標(biāo)書籍。傳統(tǒng)的基于模板匹配或支持向量機(jī)的OCR(OpticalCharacter Recognition,光學(xué)字符識別)算法通常要求文字版面簡單可分性強(qiáng),字體工整。對于識別圖書館圖書標(biāo)簽文字而言,傳統(tǒng)OCR技術(shù)易受到場景的復(fù)雜性(如光照、不相關(guān)文字區(qū)域),文字的復(fù)雜性(如字號、字體)等問題的干擾,達(dá)不到較好的識別效果。
發(fā)明內(nèi)容
針對已有圖書館圖書查閱方式不方便的問題,為了使人們可以在查閱圖書時更快更方便地找出目標(biāo)書籍,本發(fā)明提供了一種基于深度學(xué)習(xí)OCR的圖書館圖書快速定位方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于深度學(xué)習(xí)OCR的圖書館圖書快速定位方法,設(shè)讀者已通過查閱圖書館終端主機(jī)等方式獲知目標(biāo)書籍所在區(qū)域,以及目標(biāo)書籍的編號,包括以下步驟:
(1)書脊識別準(zhǔn)備:拍攝目標(biāo)書籍所在書架區(qū)域的照片作為輸入圖像,并輸入目標(biāo)書籍的編號;
(2)標(biāo)簽區(qū)域檢測:使用FCN-32定位輸入圖像中的標(biāo)簽區(qū)域,并將標(biāo)簽區(qū)域子圖切割出饋送至下一步驟;
(3)標(biāo)簽文字識別:使用基于卷積模塊+序列模塊+解譯模塊三層模塊級聯(lián)的深度學(xué)習(xí)OCR方法識別標(biāo)簽區(qū)域子圖中的文字,即識別出書籍編號,識別出的書籍編號被饋送至下一步驟;所述標(biāo)簽文字識別的過程如下:
(31)接受步驟(2)中獲得的標(biāo)簽區(qū)域子圖,調(diào)整至固定尺寸,輸入至三層深度OCR網(wǎng)絡(luò)中進(jìn)行文字行識別;
(32)卷積模塊基于傳統(tǒng)深度卷積網(wǎng)絡(luò)和STN(Spatial Transformer Network,空間變換網(wǎng)絡(luò))結(jié)構(gòu)實(shí)現(xiàn),接受固定尺寸的標(biāo)簽區(qū)域子圖,并提取其所包含的不同方向、字號、字體的文字的字符特征;
(33)序列模塊基于兩個疊加的雙向LSTM(Bi-directional Long Short-TermMemory Network,長短期記憶網(wǎng)絡(luò))實(shí)現(xiàn),接受來自卷積模塊的字符特征序列,并預(yù)測特征序列中每一幀的標(biāo)簽分布;
(34)解譯模塊基于CTC(Connectionist Temporal Classification,聯(lián)結(jié)時序分類器)實(shí)現(xiàn),解譯是將序列模塊輸出的每幀類別預(yù)測轉(zhuǎn)換為標(biāo)簽文字序列的過程,在網(wǎng)絡(luò)訓(xùn)練階段,CTC被當(dāng)作損失函數(shù)使用,避免了訓(xùn)練數(shù)據(jù)的額外對齊處理,以實(shí)現(xiàn)端到端的訓(xùn)練;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910326586.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- OCR文檔識別方法及其裝置
- 智能調(diào)度多OCR識別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識別方法、裝置和終端
- OCR識別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計算機(jī)設(shè)備及存儲介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)





