[發明專利]場景文字檢測方法有效
| 申請號: | 201910567794.2 | 申請日: | 2019-06-27 |
| 公開(公告)號: | CN110263877B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 張勇東;王裕鑫;謝洪濤;李巖 | 申請(專利權)人: | 中國科學技術大學;北京中科研究院 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/166;G06V30/19 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;鄭哲 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 場景 文字 檢測 方法 | ||
1.一種場景文字檢測方法,其特征在于,包括:
利用神經網絡對輸入圖像進行特征提取,并對提取的特征圖進行上采樣操作,得到不同尺寸的特征圖;
以最大尺寸的特征圖為標準,將其余尺寸的特征圖映射為與最大尺寸的特征圖相同的尺寸;
將映射到相同尺寸的特征圖進行不同尺度信息的融合,這一融合操作能夠使不同尺度的文字特征在融合后的統一尺寸的特征圖中得到統一的激活;
對融合后的特征圖進行文字框的回歸和分類操作,得到場景文字檢測結果;
其中,所述將其余尺寸的特征圖映射為與最大尺寸的特征圖相同的尺寸包括:通過通道匹配層改變輸入特征圖的通道數到指定大小;由尺寸映射層通過壓縮特征圖的通道數實現尺寸的擴大,從而將輸入特征圖的尺寸映射為最大尺寸的特征圖相同的尺寸;
所述將映射到相同尺寸的特征圖進行不同尺度信息的融合包括:通過兩個方向的連續卷積操作對包含不同尺度信息的特征圖進行疊加;同時運用注意力機制控制前層的尺度信息的傳遞;再通過特征聚合操作將疊加結果與注意力機制操作結果聚合。
2.根據權利要求1所述的一種場景文字檢測方法,其特征在于,通過連續的上采樣模塊對提取的特征圖進行上采樣操作;在上采樣過程中,將當前的特征圖和相同尺寸的淺層特征圖進行級聯操作。
3.根據權利要求1所述的一種場景文字檢測方法,其特征在于,在訓練階段,采用隨機梯度下降法進行端到端的訓練,整體損失函數為:
L=Lcls+λregLreg
上式中,Lcls為分類損失,Lreg為回歸損失,λreg為平衡參數。
4.根據權利要求3所述的一種場景文字檢測方法,其特征在于,
分類損失Lcls表示為:
Lcls=λRRL+λDLDice
IoU=S∩G/S∪G
回歸損失Lreg表示為:
Lreg=Lloc+Lθ
Lθ=1-cos(θ′-θ*)
其中,RL代表召回損失,LDice代表交并比損失,λR與λD均代表平衡參數,η1、η2代表平衡參數,p代表預測當前像素為文字的概率大小,y代表當前像素對應的標簽,S代表預測的單通道文字評分圖中的每個連通域,IoU代表交集比上并集的值,β表示閾值,α表示增加的權重,e為常數;P代表預測的文字框,G代表對應的標簽文字框,θ′代表預測的角度,θ*代表真實角度,Lθ代表角度的損失。
5.根據權利要求1所述的一種場景文字檢測方法,其特征在于,在測試階段,在得到場景文字檢測結果后加入非極大化抑制操作,對重復檢測的文字框進行篩選,得到最終的檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學;北京中科研究院,未經中國科學技術大學;北京中科研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910567794.2/1.html,轉載請聲明來源鉆瓜專利網。





