[發明專利]基于全卷積神經網絡的候選文本框生成和文本檢測方法有效
| 申請號: | 201611070587.9 | 申請日: | 2016-11-29 |
| 公開(公告)號: | CN106650725B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 馬景法;金連文;鐘卓耀 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06N3/04;G06N3/08 |
| 代理公司: | 廣東廣信君達律師事務所 44329 | 代理人: | 楊曉松 |
| 地址: | 510640 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 候選 文本框 生成 文本 檢測 方法 | ||
1.基于全卷積神經網絡的候選文本框生成和文本檢測方法,其特征在于,包括步驟
S1:生成文本區域候選框,inception-RPN以自然場景圖片和一套標記文本區域的真實邊界框作為輸入,產生可控數量的單詞區域候選框,在VGG16模型的卷積特征響應圖上滑動一個inception網絡,并在每個滑動位置輔助一套文本特征先驗框;
S2:并入容易引起歧義的文本類別監督信息,融入多層次的區域下采樣信息,進行文本檢測;
S3:通過反向傳播和隨機梯度下降,以一種端到端的方式訓練inception候選框生成網絡和文本檢測網絡;
S4:候選框迭代投票以一種補充的方式獲得更高的文本召回率,使用候選框過濾算法,移除過剩的檢測框;
訓練過程中使多任務的損失函數最小,公式如下:
分類層的損失函數Lcls是softmax損失函數,p和p*分別是預測的標簽和真實的標簽;回歸損失函數Lreg應用smooth-L1損失函數;另外,t={tx,ty,tw,th}和分別相應的代表預測和真實候選框的回歸偏差值向量,t*由如下公式所得:
其中,P={Px,Py,Pw,Ph}和G={Gx,Gy,Gw,Gh}分別代表相應候選框P和真實文本框G的中心坐標、高度和寬度,λ代表損失平衡參數。
2.如權利要求1所述的基于全卷積神經網絡的候選文本框生成和文本檢測方法,其特征在于,步驟S1包括步驟
S11:文本特征先驗框設計;
S12:構建inception候選框生成網絡。
3.如權利要求2所述的基于全卷積神經網絡的候選文本框生成和文本檢測方法,其特征在于,步驟S11中文本特征先驗框共24種,其中每個滑動位置滑動窗口寬度設為32,48,64和80,長寬比例為0.2,0.5,0.8,1.0,1.2和1.5。
4.如權利要求2所述的基于全卷積神經網絡的候選文本框生成和文本檢測方法,其特征在于,步驟S12中inception候選框生成網絡由一個3*3的卷積層,5*5的卷積層和3*3的最大池化層連接到一個作為輸入的Conv5_3的特征響應圖的相應的空間接受域上。
5.如權利要求1所述的基于全卷積神經網絡的候選文本框生成和文本檢測方法,其特征在于,步驟S2中文本類別監督信息為:候選框IoU重疊大于等于0.5的指定為存在文本,把候選框IoU重疊大于等于0.2小于0.5的指定為“模糊文本”,其他指定為不包含文本信息。
6.如權利要求1所述的基于全卷積神經網絡的候選文本框生成和文本檢測方法,其特征在于,步驟S2中多層次的區域下采樣信息為:在VGG16網絡的Conv4_3和Conv5_3的卷積特征響應圖都執行多層次的區域下采樣,并得到兩個512*H*W的采樣特征,然后以一個512*1*1的卷積層解碼連接在一起的特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611070587.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:建立交通標志數據庫的方法和裝置
- 下一篇:一種車牌識別方法





