[發(fā)明專利]一種基于OCR的圖像分析方法、系統(tǒng)、設(shè)備及介質(zhì)有效

申請?zhí)枺?/td>	202010315672.7	申請日：	2020-04-21
公開（公告）號：	CN111539412B	公開（公告）日：	2021-02-26
發(fā)明（設(shè)計）人：	周曦;姚志強(qiáng);林旸焜;許梅芳	申請（專利權(quán)）人：	上海云從企業(yè)發(fā)展有限公司
主分類號：	G06K9/20	分類號：	G06K9/20;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司：	上海光華專利事務(wù)所(普通合伙) 31219	代理人：	代玲
地址：	201203 上海市浦東新區(qū)中國（上海***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 ocr 圖像分析方法系統(tǒng) 設(shè)備介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供一種基于OCR的圖像分析方法、系統(tǒng)、設(shè)備及介質(zhì)，包括：根據(jù)預(yù)先獲取的目標(biāo)圖像的特征對目標(biāo)圖像進(jìn)行語義分割，獲取語義分割結(jié)果；基于所述語義分割結(jié)果對目標(biāo)圖像的版面進(jìn)行分析。本發(fā)明通過對目標(biāo)圖像進(jìn)行語義分割，根據(jù)分割后的結(jié)果進(jìn)行版面分析，能夠在遮擋、成像角度、旋轉(zhuǎn)、光照等干擾下，快速、準(zhǔn)確地檢測目標(biāo)圖像中的文本；并且對于不規(guī)范的圖像版式或表面，本發(fā)明也能結(jié)構(gòu)化提取字段信息。

技術(shù)領(lǐng)域

本發(fā)明涉及圖像技術(shù)領(lǐng)域，特別是涉及一種基于OCR的圖像分析方法、系統(tǒng)、設(shè)備及介質(zhì)。

背景技術(shù)

版面分析或版式分析是OCR(Optical Character Recognize，光學(xué)字符識別)領(lǐng)域的重要問題，其目的是判斷給定圖片或圖像中是否包含有指定目標(biāo)及獲得指定目標(biāo)的準(zhǔn)確位置及邊界。在OCR領(lǐng)域，場景文本檢測任務(wù)已廣泛采用語義分割和通用對象檢測框架。而由于遮擋、成像角度、旋轉(zhuǎn)、光照等干擾，現(xiàn)有技術(shù)中普通的目標(biāo)檢測很難同時滿足快速和準(zhǔn)確的文本檢測需求，且對于不規(guī)范的圖像版式或版面，也不能結(jié)構(gòu)化提取字段信息。

發(fā)明內(nèi)容

鑒于以上所述現(xiàn)有技術(shù)的缺點，本發(fā)明的目的在于提供一種基于OCR的圖像分析方法、系統(tǒng)、設(shè)備及介質(zhì)，用于解決現(xiàn)有技術(shù)中存在的問題。

為實現(xiàn)上述目的及其他相關(guān)目的，本發(fā)明提供一種基于OCR的圖像分析方法，包括以下步驟：

根據(jù)預(yù)先獲取的目標(biāo)圖像的特征對目標(biāo)圖像進(jìn)行語義分割，獲取語義分割結(jié)果；

基于所述語義分割結(jié)果對目標(biāo)圖像的版面進(jìn)行分析。

可選地，在獲取目標(biāo)圖像的特征前，還包括對目標(biāo)圖像進(jìn)行預(yù)處理，所述預(yù)處理包括以下至少之一：

通過文本位置矯正算法對目標(biāo)圖像中的文本進(jìn)行位置矯正、將目標(biāo)圖像的文本框標(biāo)注轉(zhuǎn)化為像素級別的標(biāo)注。

可選地，標(biāo)注的內(nèi)容包括以下之一：文本行屬性、角點、偏移量。

可選地，基于深度學(xué)習(xí)的整體方案，使用帶有動量的隨機(jī)梯度下降進(jìn)行訓(xùn)練，訓(xùn)練出一個或多個版面分析深度學(xué)習(xí)網(wǎng)絡(luò)模型；

將預(yù)先獲取的目標(biāo)圖像的特征、目標(biāo)圖像層級之間的上下文關(guān)聯(lián)屬性輸入至訓(xùn)練后的一個或多個版面分析深度學(xué)習(xí)網(wǎng)絡(luò)模型中對目標(biāo)圖像進(jìn)行語義分割。

可選地，對目標(biāo)圖像進(jìn)行的語義分割包括以下至少之一：回歸目標(biāo)圖像的文本框、回歸目標(biāo)圖像的錨檢測框、預(yù)測目標(biāo)圖像內(nèi)的像素點、預(yù)測目標(biāo)圖像中角點區(qū)域內(nèi)的像素點。

可選地，獲取的語義分割結(jié)果包括以下至少之一：通過回歸目標(biāo)圖像的文本框獲取角點位置、通過回歸目標(biāo)圖像的錨檢測框和預(yù)測目標(biāo)圖像中角點區(qū)域內(nèi)的像素點獲取目標(biāo)圖像文本框的邊界位置、通過預(yù)測目標(biāo)圖像中角點區(qū)域內(nèi)的像素點獲取目標(biāo)圖像文本框的邊界精確位置。

可選地，還包括結(jié)合多種權(quán)重進(jìn)行角點匹配；所述權(quán)重至少包括以下之一：距離、長寬比、角度。

可選地，對所有預(yù)測的像素點進(jìn)行分類，獲取目標(biāo)圖像的文本框的屬性；

基于所述文本框的屬性對目標(biāo)圖像的版面進(jìn)行分析。

可選地，在訓(xùn)練一個或多個版面分析深度學(xué)習(xí)網(wǎng)絡(luò)模型時，還包括增加一個或多個干擾參數(shù)提高所述一個或多個版面分析深度學(xué)習(xí)網(wǎng)絡(luò)模型的魯棒性。

可選地，所述干擾參數(shù)包括以下至少之一：背景、旋轉(zhuǎn)、透視、畸變、噪聲、高斯模糊、運動模糊。

可選地，在訓(xùn)練一個或多個版面分析深度學(xué)習(xí)網(wǎng)絡(luò)模型時，對于不同屬性的預(yù)測，使用不同的方法計算模型損失，并對所有的模型損失進(jìn)行加權(quán)，獲取模型的總損失。

可選地，計算的模型損失包括以下至少之一：平滑L1損失、交叉熵?fù)p失。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海云從企業(yè)發(fā)展有限公司，未經(jīng)上海云從企業(yè)發(fā)展有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010315672.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】