[發明專利]一種復雜自然場景圖像中的文字檢測方法在審
| 申請號: | 202011292690.4 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112418216A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 王潤民;李秀梅;張翔宇;徐尉翔;錢盛友 | 申請(專利權)人: | 湖南師范大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京保識知識產權代理事務所(普通合伙) 11874 | 代理人: | 尹瑩瑩 |
| 地址: | 410081 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 復雜 自然 場景 圖像 中的 文字 檢測 方法 | ||
本發明公開了一種復雜自然場景圖像中的文字檢測方法,屬于計算機視覺和模式識別領域,涉及神經網絡和計算機視覺技術領域,特別是基于深度學習實現復雜場景下的文字檢測方法。它通過融合了基于字符標注的文字檢測方法和基于單詞標注的文字檢測方法,學習字符間的組合特征,能降低文字的誤檢率,降低檢測框的冗余度,具有靈活應對任意形狀文字的能力。一種復雜場景下的文字檢測方法,它的方法步驟為:圖像數據預處理、構建網絡框架、對模型進行預訓練、訓練網絡框架;文字真實標簽生成、輸入一張待檢測的自然場景下的文字圖像、特征提取、圖像判定、文字校正模塊。
技術領域
本發明涉及計算機視覺和模式識別領域,尤其涉及一種復雜自然場景圖像中的文字檢測方法。
背景技術
近年來,隨著互聯網、通訊技術的高速發展和社交網絡的興起,視頻、音頻和圖像等多媒體數據日益飛速增長,這些信息使人與人之間的交流也變得非常容易。而圖像相對于視頻數據所需的存儲容量更小、采集設備更為簡便,相對于音頻、文字數據包含信息更為豐富和直觀,所以圖像更符合日常的場景需求。人們面對海量圖像數據,如何高效地從圖像中自動獲取有用的文字信息,近年來已經成為計算機視覺領域的研究熱點。但是由于自然場景的多樣性和拍攝視角的多變性,且自然場景文字通常具有不規則透視、彎曲和任意方向排列等情況,這時自然場景圖像中的文字檢測成為一個極具挑戰性的任務。
此外在大部分圖像中,文字區域占比很小,通常以小目標的形式出現。進而導致文字檢測過程中,出現一定的誤檢和檢測框冗余的問題。
針對自然場景文字的類內多變性和背景的復雜性,本發明提出了一種對任意形狀的文字都具有強魯棒性的自然場景文字檢測的方法。
發明內容
本發明為解決上述問題,而提出的一種復雜自然場景圖像中的文字檢測方法。
為了實現上述目的,本發明采用了如下技術方案:
一種復雜自然場景圖像中的文字檢測方法,包括以下步驟:
S1、進行圖像數據預處理,準備好包含不同形狀文字圖像的數據集;
S2、構建網絡框架采用基于批量規格化的VGG-16的全卷積網絡架構作為骨干,模型在譯碼部分有跳過連接,與U-net類似,因為它聚合低級特性;對于VGG-16,使用4個上采樣比的卷積特征圖作為最終的卷積圖,最終輸出有兩個分支:字符檢測分支和文字行檢測分支;圖像首先送入一個全卷積神經網絡進行特征提取,再由文字判別模塊對輸入文字框進行文字檢測;
S3、對模型進行預訓練,引入信息遷移機制對模型進行預訓練;
S4、訓練網絡框架:訓練深度神經網絡來預測字符區域;
S5、生成文字真實標簽:對于每一幅訓練圖像,我們使用字符級邊界框生成字符區域得分,字符區域得分表示給定像素為字符中心的概率;
S6、輸入一張待檢測的自然場景下的文字圖像;
S7、將S6中的文字圖像首先送入S2中的全卷積神經網絡進行特征提取,再由文字判別模塊對輸入文字框進行文字檢測;
S8、根據判定結果決定將圖像送入文字行檢測分支或字符檢測分支;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南師范大學,未經湖南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011292690.4/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





