[發(fā)明專利]圖像標注方法及裝置、文字檢測方法及系統(tǒng)、電子設(shè)備在審

申請?zhí)枺?/td>	202010088678.5	申請日：	2020-02-12
公開（公告）號：	CN110929727A	公開（公告）日：	2020-03-27
發(fā)明（設(shè)計）人：	范森;劉世林;康青楊;楊李偉;吳桐;曾途	申請（專利權(quán)）人：	成都數(shù)聯(lián)銘品科技有限公司
主分類號：	G06K9/32	分類號：	G06K9/32;G06K9/34
代理公司：	北京市領(lǐng)專知識產(chǎn)權(quán)代理有限公司 11590	代理人：	林輝輪
地址：	610015 四川省成都市自由貿(mào)易試驗區(qū)***	國省代碼：	四川;51
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	圖像標注方法裝置文字檢測系統(tǒng) 電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種圖像標注方法及裝置、文字檢測方法及系統(tǒng)、電子設(shè)備，所述的圖像標注方法包括步驟：獲得待標注的文字只沿水平方向排列的文本圖像和文字只沿豎直方向排列的文本圖像；針對于每一個文本圖像，分別對其中的文字段和字符進行位置標注，并將字符與相應(yīng)的文字段進行綁定；利用字符位置信息和文字段與字符綁定的信息，按規(guī)則計算出同一文字段中相鄰字符的連接區(qū)域；將高斯熱力圖仿射到字符位置和連接區(qū)域，作為置信度標簽圖。通過本發(fā)明方法對文本圖像進行標注，然后再基于標注所得置信度標簽圖進行全卷積網(wǎng)絡(luò)模型訓(xùn)練，所得的檢測模型即可同時實現(xiàn)對文字水平和豎直排列的文本圖像進行檢測，無需訓(xùn)練兩個模型，提高效率。

技術(shù)領(lǐng)域

本發(fā)明涉及圖片文本檢測技術(shù)領(lǐng)域，特別涉及一種圖像標注方法及裝置、文字檢測方法及系統(tǒng)、電子設(shè)備。

背景技術(shù)

圖片文本檢測是OCR（Optical Character Recognition，光學(xué)字符識別）的前提，即識別圖像中的文字，要先定位到文字在圖中的位置。要解決的問題是如何在雜亂無序、不可窮舉的復(fù)雜場景中準確地定位出文字的位置。深度學(xué)習(xí)使用效果更加魯棒的高層語義特征，利用更多的數(shù)據(jù)去擬合更復(fù)雜、泛化能力更強的模型。近年來，基于深度學(xué)習(xí)的文本檢測方法，在圖片文本檢測中取得了突破性進展。在基于深度學(xué)習(xí)的文本檢測方法中，使用最廣泛的是基于Region Proposal的方法，其次是基于圖像分割的方法和基于聯(lián)結(jié)文本建議網(wǎng)絡(luò)的文本檢測方法。

現(xiàn)有的基于圖像分割的文本檢測方法，一般是將文字段作為分割對象，或是將每一個字符作為分割對象。由于基于字符的分割不能滿足后續(xù)文字識別時，檢測端輸出的目標文字圖像是一整行文字或一整列文字，因此目前一般采用基于文字段的分割方式。基于文字段的分割就是將空間上連續(xù)的字符作為分割目標，可能是一句話，也可能是一個詞。基于深度學(xué)習(xí)的文本檢測首先要做的就是對文本圖片中的文字段進行標注。目前基于文字段的分割方式存在以下缺陷：基于文字段標注的數(shù)據(jù)，在標注時很難界定要將哪幾個字放到同一個目標框中，字與字之間的空白部分到底是屬于文字還是不屬于文字；圖像上的每個字符和前后左右的字符距離都一樣時，若使用水平排列的標注數(shù)據(jù)訓(xùn)練，進行文字檢測時，會將這些文字按行檢測出來，若使用豎直排列的標注數(shù)據(jù)訓(xùn)練，會將這些文字按列檢測出來，因此使用基于文字段標注的數(shù)據(jù)訓(xùn)練得到的模型，即便是同一算法能支持任意方向的文字檢測，也要分別訓(xùn)練兩個模型，導(dǎo)致文字檢測效率低。

發(fā)明內(nèi)容

本發(fā)明的目的在于改善現(xiàn)有技術(shù)中所存在的需要分別訓(xùn)練兩個模型才能實現(xiàn)分別對水平排列和豎直排列的文字段進行分割的缺陷，提供一種基于置信度熱力圖的文字檢測方法及系統(tǒng)，只訓(xùn)練一種模型即可同時對兩種排列方式的文字段進行分割。

為了實現(xiàn)上述發(fā)明目的，本發(fā)明實施例提供了以下技術(shù)方案：

一方面，本發(fā)明實施例中提供了一種文本圖像標注方法，包括以下步驟：

獲得待標注的文字只沿水平方向排列的文本圖像和文字只沿豎直方向排列的文本圖像；

針對于每一個文本圖像，分別對其中的文字段和字符進行位置標注，并將字符與相應(yīng)的文字段進行綁定；

針對于每一個文本圖像，利用字符位置信息和文字段與字符綁定的信息，按規(guī)則計算出同一文字段中相鄰字符的連接區(qū)域；

針對于每一個文本圖像，使用一張同原圖尺寸相同的空白圖像給字符位置打分，使用另一張同原圖尺寸相同的空白圖像給連接區(qū)域打分，得分服從二維高斯分布，以這兩張分數(shù)熱力圖作為標簽。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都數(shù)聯(lián)銘品科技有限公司，未經(jīng)成都數(shù)聯(lián)銘品科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010088678.5/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】