[發(fā)明專利]圖像標注方法及裝置、文字檢測方法及系統(tǒng)、電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010088678.5 | 申請日: | 2020-02-12 |
| 公開(公告)號: | CN110929727A | 公開(公告)日: | 2020-03-27 |
| 發(fā)明(設(shè)計)人: | 范森;劉世林;康青楊;楊李偉;吳桐;曾途 | 申請(專利權(quán))人: | 成都數(shù)聯(lián)銘品科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34 |
| 代理公司: | 北京市領(lǐng)專知識產(chǎn)權(quán)代理有限公司 11590 | 代理人: | 林輝輪 |
| 地址: | 610015 四川省成都市自由貿(mào)易試驗區(qū)*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖像 標注 方法 裝置 文字 檢測 系統(tǒng) 電子設(shè)備 | ||
本發(fā)明涉及一種圖像標注方法及裝置、文字檢測方法及系統(tǒng)、電子設(shè)備,所述的圖像標注方法包括步驟:獲得待標注的文字只沿水平方向排列的文本圖像和文字只沿豎直方向排列的文本圖像;針對于每一個文本圖像,分別對其中的文字段和字符進行位置標注,并將字符與相應(yīng)的文字段進行綁定;利用字符位置信息和文字段與字符綁定的信息,按規(guī)則計算出同一文字段中相鄰字符的連接區(qū)域;將高斯熱力圖仿射到字符位置和連接區(qū)域,作為置信度標簽圖。通過本發(fā)明方法對文本圖像進行標注,然后再基于標注所得置信度標簽圖進行全卷積網(wǎng)絡(luò)模型訓(xùn)練,所得的檢測模型即可同時實現(xiàn)對文字水平和豎直排列的文本圖像進行檢測,無需訓(xùn)練兩個模型,提高效率。
技術(shù)領(lǐng)域
本發(fā)明涉及圖片文本檢測技術(shù)領(lǐng)域,特別涉及一種圖像標注方法及裝置、文字檢測方法及系統(tǒng)、電子設(shè)備。
背景技術(shù)
圖片文本檢測是OCR(Optical Character Recognition,光學(xué)字符識別)的前提,即識別圖像中的文字,要先定位到文字在圖中的位置。要解決的問題是如何在雜亂無序、不可窮舉的復(fù)雜場景中準確地定位出文字的位置。深度學(xué)習(xí)使用效果更加魯棒的高層語義特征,利用更多的數(shù)據(jù)去擬合更復(fù)雜、泛化能力更強的模型。近年來,基于深度學(xué)習(xí)的文本檢測方法,在圖片文本檢測中取得了突破性進展。在基于深度學(xué)習(xí)的文本檢測方法中,使用最廣泛的是基于Region Proposal的方法,其次是基于圖像分割的方法和基于聯(lián)結(jié)文本建議網(wǎng)絡(luò)的文本檢測方法。
現(xiàn)有的基于圖像分割的文本檢測方法,一般是將文字段作為分割對象,或是將每一個字符作為分割對象。由于基于字符的分割不能滿足后續(xù)文字識別時,檢測端輸出的目標文字圖像是一整行文字或一整列文字,因此目前一般采用基于文字段的分割方式。基于文字段的分割就是將空間上連續(xù)的字符作為分割目標,可能是一句話,也可能是一個詞。基于深度學(xué)習(xí)的文本檢測首先要做的就是對文本圖片中的文字段進行標注。目前基于文字段的分割方式存在以下缺陷:基于文字段標注的數(shù)據(jù),在標注時很難界定要將哪幾個字放到同一個目標框中,字與字之間的空白部分到底是屬于文字還是不屬于文字;圖像上的每個字符和前后左右的字符距離都一樣時,若使用水平排列的標注數(shù)據(jù)訓(xùn)練,進行文字檢測時,會將這些文字按行檢測出來,若使用豎直排列的標注數(shù)據(jù)訓(xùn)練,會將這些文字按列檢測出來,因此使用基于文字段標注的數(shù)據(jù)訓(xùn)練得到的模型,即便是同一算法能支持任意方向的文字檢測,也要分別訓(xùn)練兩個模型,導(dǎo)致文字檢測效率低。
發(fā)明內(nèi)容
本發(fā)明的目的在于改善現(xiàn)有技術(shù)中所存在的需要分別訓(xùn)練兩個模型才能實現(xiàn)分別對水平排列和豎直排列的文字段進行分割的缺陷,提供一種基于置信度熱力圖的文字檢測方法及系統(tǒng),只訓(xùn)練一種模型即可同時對兩種排列方式的文字段進行分割。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明實施例提供了以下技術(shù)方案:
一方面,本發(fā)明實施例中提供了一種文本圖像標注方法,包括以下步驟:
獲得待標注的文字只沿水平方向排列的文本圖像和文字只沿豎直方向排列的文本圖像;
針對于每一個文本圖像,分別對其中的文字段和字符進行位置標注,并將字符與相應(yīng)的文字段進行綁定;
針對于每一個文本圖像,利用字符位置信息和文字段與字符綁定的信息,按規(guī)則計算出同一文字段中相鄰字符的連接區(qū)域;
針對于每一個文本圖像,使用一張同原圖尺寸相同的空白圖像給字符位置打分,使用另一張同原圖尺寸相同的空白圖像給連接區(qū)域打分,得分服從二維高斯分布,以這兩張分數(shù)熱力圖作為標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都數(shù)聯(lián)銘品科技有限公司,未經(jīng)成都數(shù)聯(lián)銘品科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010088678.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:用于氣密性檢測的管連接器
- 下一篇:封堵裝置
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





