[發(fā)明專利]基于無錨點的自然場景文字區(qū)域檢測模型的構(gòu)建方法在審
| 申請?zhí)枺?/td> | 202011098722.7 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112149620A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計)人: | 徐亦飛;王冕;王愛臣;嚴湯文;王優(yōu);李斌;尉萍萍;肖志峰 | 申請(專利權(quán))人: | 南昌慧亦臣科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州專理知識產(chǎn)權(quán)代理事務所(普通合伙) 44493 | 代理人: | 張鳳 |
| 地址: | 330000 江西省南昌市紅谷灘新區(qū)*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 無錨點 自然 場景 文字 區(qū)域 檢測 模型 構(gòu)建 方法 | ||
本發(fā)明公開了一種基于無錨點的自然場景文字區(qū)域檢測模型的構(gòu)建方法,使用基于像素的檢測方式,引入預測邊界框傾斜角度的卷積分支,從而可以檢測自然場景中的傾斜文字;在網(wǎng)絡主干的某些層中加入可變形卷積DCN,從而提升網(wǎng)絡表達文本實例特定特征的能力,并對文本目標形狀的感受野更加靈活;在網(wǎng)絡中引入了注意力模塊,從而對提取的特征進行過濾,增強積極信息并抑制干擾信息;本發(fā)明中使用分類損失、回歸損失CIoU Loss、中心度損失和角度損失作為聯(lián)合損失函數(shù),從而提升了檢測精度,并且使得目標框回歸變得更加穩(wěn)定,同時達到更快的收斂速度。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種基于無錨點的自然場景文字區(qū)域檢測模型的構(gòu)建方法。
背景技術(shù)
文字區(qū)域檢測是計算機視覺領(lǐng)域研究的熱點,其旨在將自然場景圖像中的文字的位置檢測出來,以供下一步進行識別,從而將圖像轉(zhuǎn)換為可供計算機處理的真實的文字信息。自然場景圖像中的文字通常在字體、組合方式和文字大小等方面存在著較大的差異,且自然場景圖像還在光照強度、分辨率、圖像噪聲以及拍攝角度等方面存在很大的不確定性,這些復雜的因素大大增加了自然場景下的文字區(qū)域檢測的難度。
自然場景文字區(qū)域檢測常用的一種方法為基于邊界框回歸的方法,基于邊界框回歸的方法通常將文本看做一種類型的目標,直接預測出它的邊界框作為檢測的結(jié)果?;谶吔缈蚧貧w的方法包括雙階段(two-stage)方法以及單階段(one-stage)方法,其中,前者是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡進行樣本分類;后者則不用產(chǎn)生候選框,直接將目標邊框定位的問題轉(zhuǎn)化為回歸問題處理。通常來說,前者的準確率要高于后者,而后者速度要優(yōu)于前者。
基于兩類方法的特點,在實時性要求比較高的場合下,例如自動駕駛場景中的文字區(qū)域檢測需要較短的識別時間,屬于實時性,常使用單階段方法。例如,Tian Z,Shen C,Chen H,et al.FCOS:Fully convolutional one-stage object detection提出的FCOS算法是一種無錨框單階段的目標檢測算法,該算法保留了無錨框機制,并且引入了基于像素回歸預測,多尺度特征以及中心度(Center-ness)預測三種策略,最終實現(xiàn)了在無錨框的情況下效果能夠比肩各類主流基于錨框的目標檢測算法。但是,該FCOS算法存在準確度較低的問題。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于無錨點的自然場景文字區(qū)域檢測模型的構(gòu)建方法,以解決現(xiàn)有的無錨點的自然場景文字區(qū)域檢測的準確度較低的問題。
本發(fā)明提供了一種無錨點的自然場景文字區(qū)域檢測模型的構(gòu)建方法,包括:
步驟S100,采集面向自然場景下的含有文字圖像的數(shù)據(jù)集,所述數(shù)據(jù)集包括訓練圖像集Ttrain和檢測圖像集Ttest;
步驟S200,將自然圖像作為輸入,輸至特征提取網(wǎng)絡,生成由多尺度的輸入特征圖Input Feature Map組成的特征金字塔,其中,特征提取網(wǎng)絡包含可變形卷積DCN;
步驟S300,將特征金字塔傳入注意力模塊Attention,通過頭部操作Head金字塔注意力模塊對輸入特征圖Input Feature Map進行過濾,生成精準特征圖Refined FeatureMap,其中,注意力模塊Attention包括通道注意力模塊Channel Attention Module和空間注意力模塊Spatial Attention Module;
步驟S400,將精準特征圖Refined Feature Map傳入包括三個卷積分支Convolution的輸出層,生成特性特征圖,所述特性特征圖包括分類特征圖ClassificationFeature Map、中心度特征圖Center-ness Feature Map、回歸特征圖Regression FeatureMap、角度特征圖Angle Feature Map,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南昌慧亦臣科技有限公司,未經(jīng)南昌慧亦臣科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011098722.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





