[發(fā)明專利]基于無錨點(diǎn)的自然場景文字區(qū)域檢測模型的構(gòu)建方法在審
| 申請?zhí)枺?/td> | 202011098722.7 | 申請日: | 2020-10-14 |
| 公開(公告)號(hào): | CN112149620A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 徐亦飛;王冕;王愛臣;嚴(yán)湯文;王優(yōu);李斌;尉萍萍;肖志峰 | 申請(專利權(quán))人: | 南昌慧亦臣科技有限公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州專理知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44493 | 代理人: | 張鳳 |
| 地址: | 330000 江西省南昌市紅谷灘新區(qū)*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 無錨點(diǎn) 自然 場景 文字 區(qū)域 檢測 模型 構(gòu)建 方法 | ||
1.一種基于無錨點(diǎn)的自然場景文字區(qū)域檢測模型的構(gòu)建方法,其特征在于,包括:
步驟S100,采集面向自然場景下的含有文字圖像的數(shù)據(jù)集,所述數(shù)據(jù)集包括訓(xùn)練圖像集Ttrain和檢測圖像集Ttest;
步驟S200,將自然圖像作為輸入,輸至特征提取網(wǎng)絡(luò),生成由多尺度的輸入特征圖Input Feature Map組成的特征金字塔,其中,特征提取網(wǎng)絡(luò)包含可變形卷積DCN;
步驟S300,將特征金字塔傳入注意力模塊Attention,通過頭部操作Head金字塔注意力模塊對輸入特征圖Input Feature Map進(jìn)行過濾,生成精準(zhǔn)特征圖Refined Feature Map,其中,注意力模塊Attention包括通道注意力模塊Channel Attention Module和空間注意力模塊Spatial Attention Module;
步驟S400,將精準(zhǔn)特征圖Refined Feature Map傳入包括三個(gè)卷積分支Convolution的輸出層,生成特性特征圖,所述特性特征圖包括分類特征圖Classification Feature Map、中心度特征圖Center-ness Feature Map、回歸特征圖Regression Feature Map、角度特征圖Angle Feature Map,
其中,三個(gè)卷積分支Convolution中,第一卷積分支負(fù)責(zé)分類任務(wù)和中心度預(yù)測任務(wù),第二卷積分支負(fù)責(zé)邊界框的回歸,第三卷積分支負(fù)責(zé)邊界框傾斜角度的預(yù)測;
步驟S500,將訓(xùn)練圖像集Ttrain中的訓(xùn)練圖像輸入到步驟S200中,經(jīng)過步驟S200、步驟S300、步驟S400,得到訓(xùn)練圖像對應(yīng)的特性特征圖,
將訓(xùn)練圖像標(biāo)注的各個(gè)實(shí)際的目標(biāo)框中心度、目標(biāo)框回歸坐標(biāo)目標(biāo)框文字傾斜角度與對應(yīng)的特性特征圖使用聯(lián)合損失函數(shù)進(jìn)行訓(xùn)練,得到無錨點(diǎn)的自然場景文字區(qū)域檢測模型;
步驟S600,將檢測圖像數(shù)據(jù)集Ttest中的檢測圖像作為輸入,輸至無錨點(diǎn)的自然場景文字區(qū)域檢測模型,得到檢測圖像中的文字檢測區(qū)域。
2.根據(jù)權(quán)利要求1所述的基于無錨點(diǎn)的自然場景文字區(qū)域檢測模型的構(gòu)建方法,其特征在于,步驟S200,包括,
步驟S210,將自然圖像傳至特征提取網(wǎng)絡(luò),特征提取網(wǎng)絡(luò)中ResNet網(wǎng)絡(luò)的第三層C3、第四層C4、第五層C5生成對應(yīng)的輸入特征圖P3、輸入特征圖P4以及輸入特征圖P5;
步驟S220,在第五層生成的輸入特征圖P5上添加了兩個(gè)卷積層,生成了兩個(gè)新的輸入特征圖P6與輸入特征圖P7,得到由五個(gè)不同尺寸的輸入特征圖構(gòu)成特征金字塔。
3.根據(jù)權(quán)利要求1所述的基于無錨點(diǎn)的自然場景文字區(qū)域檢測模型的構(gòu)建方法,其特征在于,步驟S300,包括,
步驟S310,使用最大池化Maxpool和平均池化Avgpool操作對特征金字塔中的輸入特征圖Input Feature Map在空間維度上進(jìn)行壓縮,生成兩個(gè)不同的空間上、下文描述子;將兩個(gè)描述子輸入到共享網(wǎng)絡(luò)中,其中,共享網(wǎng)絡(luò)由一個(gè)隱層的多層感知器MLP組成,通過共享網(wǎng)絡(luò)分別生成對應(yīng)的分通道注意圖;將生成的兩個(gè)分通道注意力圖合并生成注意力權(quán)重圖;將注意力權(quán)重圖和輸入特征圖Input Feature Map進(jìn)行點(diǎn)積運(yùn)算,生成通道精準(zhǔn)特征圖Channel Refined Feature Map;
步驟S320,對通道精準(zhǔn)特征圖Channel Refined Feature Map沿其通道軸進(jìn)行最大池化Maxpool和平均池化Avgpool操作,并將生成的特征圖進(jìn)行連接操作,生成特征描述子;在特征描述子上應(yīng)用卷積層Conv,生成空間注意力圖Spatial Attention;生成的空間注意力圖Spatial Attention與通道精準(zhǔn)特征圖Channel Refined Feature Map進(jìn)行點(diǎn)積運(yùn)算,生成空間注意精準(zhǔn)特征圖Spatial Refined Feature Map。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南昌慧亦臣科技有限公司,未經(jīng)南昌慧亦臣科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011098722.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 實(shí)現(xiàn)無固定錨點(diǎn)切換的Wimax系統(tǒng)及其切換方法
- 一種無粘結(jié)預(yù)應(yīng)力施工錨桿綜合監(jiān)測預(yù)警技術(shù)
- 一種工作面裝備定位系統(tǒng)
- 用于移動(dòng)終端的圖形用戶界面
- 基于錨圖結(jié)構(gòu)的雙拉普拉斯正則化的半監(jiān)督數(shù)據(jù)分類方法
- 光伏板故障光斑檢測識(shí)別方法和系統(tǒng)
- 巖石錨桿
- 一種飛機(jī)襟翼運(yùn)動(dòng)機(jī)構(gòu)
- 一種基于感受野感知的無錨點(diǎn)框目標(biāo)檢測方法
- 一種基于孿生網(wǎng)絡(luò)融合多層特征的無錨點(diǎn)目標(biāo)跟蹤方法
- 電視場景切換的方法及電視
- 視頻場景控制系統(tǒng)及方法
- 場景開關(guān)及其場景開關(guān)構(gòu)件和場景圖標(biāo)卡組件
- 場景聯(lián)動(dòng)方法及場景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場景庫數(shù)據(jù)復(fù)雜度度量方法
- 場景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





