[發(fā)明專利]一種基于上下邊界提取的自然場(chǎng)景下文字檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110265373.1 | 申請(qǐng)日: | 2021-03-11 |
| 公開(公告)號(hào): | CN112861860A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計(jì))人: | 路通;鐘虎門;楊志博;王永攀 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué) |
| 主分類號(hào): | G06K9/32 | 分類號(hào): | G06K9/32;G06K9/34;G06K9/46;G06N3/04;G06N3/08;G06T7/11 |
| 代理公司: | 北京德崇智捷知識(shí)產(chǎn)權(quán)代理有限公司 11467 | 代理人: | 王雪 |
| 地址: | 210000 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 上下 邊界 提取 自然 場(chǎng)景 文字 檢測(cè) 方法 | ||
本發(fā)明公開了一種基于上下邊界提取的自然場(chǎng)景下文字檢測(cè)方法,涉及計(jì)算機(jī)視覺文字檢測(cè)和圖像分割領(lǐng)域。具體包括:步驟1,通過卷積神經(jīng)網(wǎng)絡(luò)模型提取圖像的特征圖,并通過多尺度特征金字塔模型對(duì)特征圖進(jìn)行增強(qiáng);步驟2,通過語義分割模型預(yù)測(cè)文字的中心區(qū)域,上邊界區(qū)域,下邊界區(qū)域和文字的整體區(qū)域;步驟3,通過廣度優(yōu)先搜索將中心區(qū)域逐步擴(kuò)展至整體區(qū)域,同時(shí)通過對(duì)上下邊界區(qū)域進(jìn)行濾波操作得到文字的形式化上下邊界線;步驟4,組合文字的中心區(qū)域、整體區(qū)域以及上下邊界線得到最終的文字檢測(cè)結(jié)果。優(yōu)點(diǎn)在于能夠提取圖像中文字的上下邊界并定位文字區(qū)域,能夠進(jìn)行自然場(chǎng)景下的圖像文字檢測(cè)。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺文字檢測(cè)和圖像分割領(lǐng)域,具體涉及一種基于上下邊界提取的自然場(chǎng)景下文字檢測(cè)方法。
背景技術(shù)
自然場(chǎng)景中的文字檢測(cè)任務(wù)是計(jì)算機(jī)視覺領(lǐng)域中一項(xiàng)極為受到關(guān)注的研究項(xiàng)目,其具體任務(wù)可以理解為從一張自然場(chǎng)景拍攝的圖像中提取其內(nèi)部包含的所有文字的位置及其邊界框。自然場(chǎng)景文字檢測(cè)任務(wù)在學(xué)術(shù)領(lǐng)域和工業(yè)領(lǐng)域都有十分重要的應(yīng)用,例如在學(xué)術(shù)界中,高效、準(zhǔn)確的文字檢測(cè)是后續(xù)文字識(shí)別、文本圖像內(nèi)容理解等任務(wù)至關(guān)重要的基石;同時(shí)對(duì)于工業(yè)界,文字檢測(cè)在自動(dòng)駕駛中的路牌識(shí)別、自然場(chǎng)景下的文字翻譯等任務(wù)中也具有非常重要的地位。因此,建立一種高效準(zhǔn)確且能有效表示文字邊界線的模型和方法,在計(jì)算機(jī)視覺領(lǐng)域具有重要意義。
自然場(chǎng)景中的文字檢測(cè)具有相當(dāng)程度的復(fù)雜性,其難度體現(xiàn)在多個(gè)方面,例如文字本身的多樣性:不同文字可能具有不同的文本內(nèi)容、不同的語種、多樣的字體和風(fēng)格等,因此需要一個(gè)具有高度泛化能力的模型對(duì)文字進(jìn)行建模;又例如文字區(qū)域排布的任意性,即自然場(chǎng)景圖像中,文字可能是以任意的方式如水平排布、傾斜排布、翻轉(zhuǎn)排布甚至彎曲排布等方式排列在圖像中,這給文字的準(zhǔn)確檢測(cè)帶來了極大的困難;再例如文字區(qū)域與一些復(fù)雜背景混合時(shí),背景噪聲本身的紋理形狀可能與文字非常相似,如何將復(fù)雜背景中的噪聲與前景文字區(qū)分開來同樣是一個(gè)極有挑戰(zhàn)的問題。
傳統(tǒng)的自然場(chǎng)景文字檢測(cè)模型將通用目標(biāo)檢測(cè)模型直接應(yīng)用于文字檢測(cè)領(lǐng)域,例如使用SSD,F(xiàn)aster-RCNN等模型直接檢測(cè)自然場(chǎng)景中的文字實(shí)例同時(shí)預(yù)測(cè)每個(gè)文字實(shí)例位置的矩形框,但是這些方法只考慮了正常形狀的文字實(shí)例,而傾斜排布甚至彎曲排布的文字很難通過一個(gè)平行于橫縱軸的矩形框進(jìn)行準(zhǔn)確的表示。同時(shí),也有一部分方法采用純分割模型以文字區(qū)域?yàn)槟繕?biāo)訓(xùn)練分割模型,則預(yù)測(cè)的文字區(qū)域通過findContour函數(shù)就可以找到對(duì)應(yīng)文字實(shí)例的輪廓線,但是這樣的方法也有其一定的局限性,例如使用findContour函數(shù)找到的文字實(shí)例輪廓線沒有上下邊界之分,因此很難用于形式化的表示一個(gè)文字實(shí)例同時(shí)準(zhǔn)確的提取文字區(qū)域的內(nèi)容以便于后續(xù)可能的下游任務(wù)。
隨著深度學(xué)習(xí)以及目標(biāo)檢測(cè)和語義分割等領(lǐng)域的快速發(fā)展,我們嘗試使用深度神經(jīng)網(wǎng)絡(luò)通過語義分割方法預(yù)測(cè)文字實(shí)例的區(qū)域,同時(shí)輔以使用分割模型預(yù)測(cè)文字實(shí)例的上下邊界區(qū)域病進(jìn)一步提取其上下邊界線。通過這樣的設(shè)計(jì),該方法能在保留過往基于語義分割的模型能夠處理彎曲文字的優(yōu)勢(shì)的同時(shí),也通過對(duì)文字上下邊界的預(yù)測(cè)獲得了提取文字上下邊界線的能力,這使得該模型能預(yù)測(cè)自然場(chǎng)景下任意排布的文字區(qū)域并為之生成形式化的上下邊界線。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是對(duì)自然場(chǎng)景下的任意排布、任意形狀的文字進(jìn)行上下邊界線提取并進(jìn)而對(duì)自然場(chǎng)景下的任意排布、任意形狀文字進(jìn)行檢測(cè)。
為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是:
一種基于上下邊界提取的自然場(chǎng)景下文字檢測(cè)方法,包括如下步驟:
步驟1,通過卷積神經(jīng)網(wǎng)絡(luò)模型提取輸入圖像的特征圖,并通過多尺度特征金字塔模型對(duì)特征圖進(jìn)行增強(qiáng);
步驟2,通過語義分割模型預(yù)測(cè)文字的整體區(qū)域、中心區(qū)域、上邊界區(qū)域以及下邊界區(qū)域;
步驟3,通過廣度優(yōu)先搜索將中心區(qū)域逐步擴(kuò)展至整體區(qū)域,同時(shí)通過對(duì)上下邊界區(qū)域進(jìn)行濾波操作得到文字的形式化上下邊界線;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110265373.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





