[發(fā)明專利]一種基于邊界預(yù)測的自然場景多語言文字檢測方法有效
| 申請?zhí)枺?/td> | 202010636379.0 | 申請日: | 2020-07-04 |
| 公開(公告)號: | CN111898608B | 公開(公告)日: | 2022-04-26 |
| 發(fā)明(設(shè)計)人: | 馮曉毅;宋真東;蔣曉悅;夏召強(qiáng);李會方;謝紅梅;何貴青;彭進(jìn)業(yè);王西漢 | 申請(專利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V10/22;G06K9/62;G06N3/04;G06N3/08;G06V10/80 |
| 代理公司: | 西安凱多思知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61290 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 邊界 預(yù)測 自然 場景 語言文字 檢測 方法 | ||
本發(fā)明公開了一種基于邊界預(yù)測的自然場景多語言文字檢測方法,首先構(gòu)建了一個多語言文字檢測網(wǎng)絡(luò)模型,該模型包括特征提取主干網(wǎng)絡(luò)、殘差卷積模塊(RCM)、殘差池化模塊(RPM)和特征融合層,對輸入圖像逐像素預(yù)測文字區(qū)域與其外接邊界,并將其轉(zhuǎn)化為置信圖輸出,通過廣度優(yōu)先搜索算法將邊界相連的文字區(qū)域分離進(jìn)而得到最終的檢測結(jié)果。本方法能夠檢測任意方向、形狀的多語言文字區(qū)域,降低了算法復(fù)雜度,節(jié)省計算時間,顯著提升了檢測精度。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)視覺領(lǐng)域,具體涉及自然場景中多語言文字檢測方法。
背景技術(shù)
受到全球化加速的影響,不同國家的人們生活在同一個城市中,彼此間文化交流越來越密切,這種趨勢帶來的最直接的改變是人們生活環(huán)境中經(jīng)常會看到來自不同國家的文字。對基于自然場景內(nèi)容理解的眾多應(yīng)用而言,如無人駕駛系統(tǒng)、盲人輔助系統(tǒng)、旅行翻譯、自動機(jī)器人等,以往針對單一或者混合語言而開發(fā)的文字檢測方法已然無法滿足當(dāng)今多元化的語言環(huán)境。而為每一種語言分別開發(fā)其對應(yīng)檢測器的策略并不能受到人們的認(rèn)可。因此,需要克服多語言文字檢測中所面臨的特有挑戰(zhàn),設(shè)計魯棒的自然場景中多語言文字檢測方法。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)發(fā)展迅速,CNN網(wǎng)絡(luò)能夠自動學(xué)習(xí)圖像視覺特征的能力十分適合用于自然場景中文字檢測。多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)研發(fā)的文字檢測算法僅針對一到兩種語言設(shè)計,無法滿足多語言文字檢測的需求。并且其方法大多使用四邊形目標(biāo)框定位文字區(qū)域,難以適應(yīng)曲線或不規(guī)則文字區(qū)域。同時,與拉丁語文字采用空格分隔單詞不同,許多非拉丁語文字(如漢語、日語等)因單個字符包含更高的語義信息而不用通過空格分隔單詞,因此這類語言通常會具有極大長寬比的文字行,導(dǎo)致了檢測算法精度下降。
利用卷積神經(jīng)網(wǎng)絡(luò)對文字區(qū)域進(jìn)行像素級的預(yù)測能夠有效地檢測任意形狀的多語言文字。然而,當(dāng)小的文字區(qū)域相互靠近時,這種預(yù)測方式無法準(zhǔn)確分離文字區(qū)域,因此直接應(yīng)用于文字檢測時性能有限。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于邊界預(yù)測的自然場景多語言文字檢測方法,首先構(gòu)建了一個多語言文字檢測網(wǎng)絡(luò)模型,該模型包括特征提取主干網(wǎng)絡(luò)、殘差卷積模塊(RCM)、殘差池化模塊(RPM)和特征融合層,對輸入圖像逐像素預(yù)測文字區(qū)域與其外接邊界,并將其轉(zhuǎn)化為置信圖輸出,通過廣度優(yōu)先搜索算法將邊界相連的文字區(qū)域分離進(jìn)而得到最終的檢測結(jié)果。
為達(dá)到上述目的,本發(fā)明提供了一種基于邊界預(yù)測的自然場景多語言文字檢測方法,主要包含以下幾個步驟:
步驟1:構(gòu)建多語言文字檢測網(wǎng)絡(luò)模型
步驟1-1:首先采用若干卷積層對輸入圖像進(jìn)行卷積操作,輸出圖像的特征層通道數(shù)變?yōu)?4,分辨率降低至原始圖像的1/4,輸出特征層記為[W/4,H/4,64],其中W和H分別表示輸入圖像的寬和高;
步驟1-2:步驟1-1輸出圖像輸入到RCM,輸出圖像的特征層通道數(shù)增加到256同時分辨率保持不變,記為[W/4,H/4,256];
步驟1-3:步驟1-2的輸出圖像產(chǎn)生兩個分支,一個分支通過卷積模塊降低特征層通道數(shù)但保持分辨率不變,輸出特征層記為[W/4,H/4,32];另一個分支經(jīng)過降維卷積模塊產(chǎn)生一個降低分辨率的特征層,記為[W/8,H/8,64];
步驟1-4:步驟1-3輸出的兩個特征層再次分別經(jīng)過RCM后進(jìn)入特征融合階段用以同時提高特征細(xì)節(jié)與語義信息,融合后的兩個特征層分別為([W/4,H/4,32],[W/8,H/8,64]);融合后的兩個特征層中分辨率較低者再通過降維卷積操作產(chǎn)生更低分辨率的特征層,記為[W/16,H/16,128];
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010636379.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





