[發(fā)明專利]一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識(shí)別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011178476.6 | 申請日: | 2020-10-29 |
| 公開(公告)號(hào): | CN112348024A | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計(jì))人: | 戴亦斌 | 申請(專利權(quán))人: | 北京信工博特智能科技有限公司 |
| 主分類號(hào): | G06K9/34 | 分類號(hào): | G06K9/34;G06K9/62;G06N3/08 |
| 代理公司: | 天津市鼎和專利商標(biāo)代理有限公司 12101 | 代理人: | 蒙建軍 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 優(yōu)化 網(wǎng)絡(luò) 圖文 識(shí)別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識(shí)別方法及系統(tǒng),屬于光學(xué)字符識(shí)別技術(shù)領(lǐng)域,其特征在于:至少包括如下步驟:步驟一:通過深度學(xué)習(xí)目標(biāo)檢測技術(shù),識(shí)別出單幀圖像中的物體;步驟二:通過摳圖模型和對齊模型,將所述物體摳出圖片,并對齊;步驟三:將所述圖片整塊進(jìn)行OCR識(shí)別;步驟四:將OCR識(shí)別得到的文字識(shí)別結(jié)果送入基于深度學(xué)習(xí)自然語言處理建立的NLP校正模型進(jìn)行校正,最終輸出文字識(shí)別結(jié)果。本發(fā)明借助深度學(xué)習(xí)目標(biāo)檢測技術(shù),通過建立不精確文本校正模型,能快速識(shí)別整塊文字的照片、視頻加工工藝,它能將整幅照片或整幀視頻中的整塊文字塊標(biāo)記出來,從而節(jié)省OCR處理的系統(tǒng)資源,大大提高文字識(shí)別效率。
技術(shù)領(lǐng)域
本發(fā)明屬于光學(xué)字符識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識(shí)別方法及系統(tǒng)。
背景技術(shù)
眾所周知,OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。如何除錯(cuò)或利用輔助信息提高識(shí)別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。
請參閱圖1,傳統(tǒng)的OCR識(shí)別技術(shù),通常會(huì)先找出單個(gè)文字塊,而單個(gè)文字塊通常十分眾多,很多小塊進(jìn)行拼接,這導(dǎo)致系統(tǒng)資源的極大浪費(fèi),同時(shí)使得文字識(shí)別效率大大降低。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提出了一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識(shí)別方法及系統(tǒng),借助深度學(xué)習(xí)目標(biāo)檢測技術(shù),通過建立不精確文本校正模型,能快速識(shí)別整塊文字的照片、視頻加工工藝,它能將整幅照片或整幀視頻中的整塊文字塊標(biāo)記出來,從而節(jié)省OCR處理的系統(tǒng)資源,大大提高文字識(shí)別效率。
本發(fā)明的目的之一在于提供一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識(shí)別方法,包括如下步驟:
步驟一:通過深度學(xué)習(xí)目標(biāo)檢測技術(shù),識(shí)別出單幀圖像中的物體;
步驟二:通過摳圖模型和對齊模型,將所述物體摳出圖片,并對齊;
步驟三:將所述圖片整塊進(jìn)行OCR識(shí)別;
步驟四:將OCR識(shí)別得到的文字識(shí)別結(jié)果送入基于深度學(xué)習(xí)自然語言處理建立的NLP校正模型進(jìn)行校正,最終輸出文字識(shí)別結(jié)果。
優(yōu)選地,建立基于深度學(xué)習(xí)自然語言處理的NLP校正模型具體步驟為:
首先,利用前期積累的語料庫進(jìn)行進(jìn)行深度人工神經(jīng)網(wǎng)絡(luò)的初始化;
然后,利用整理好的整塊進(jìn)行OCR識(shí)別的識(shí)別過程信息、NLP人工校正的輸入文本的錯(cuò)誤信息、校正過程記錄相關(guān)信息,以及作為數(shù)據(jù)集輸入對齊的目標(biāo)物體信息、精確度不高的文本進(jìn)行訓(xùn)練,通過合理設(shè)置的損失函數(shù)對深度人工神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)值調(diào)整。
優(yōu)選地,所述單幀圖像為照片集終的單張圖片或視頻中的單幀圖片。
本發(fā)明的目的之二在于提供一種基于深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)的圖文識(shí)別系統(tǒng),至少包括:
物體識(shí)別模塊:通過深度學(xué)習(xí)目標(biāo)檢測技術(shù),識(shí)別出單幀圖像中的物體;
對齊模塊:通過摳圖模型和對齊模型,將所述物體摳出圖片,并對齊;
OCR識(shí)別模塊:將所述圖片整塊進(jìn)行OCR識(shí)別;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信工博特智能科技有限公司,未經(jīng)北京信工博特智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011178476.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





