[發明專利]一種自然場景文本檢測方法及系統在審
| 申請號: | 201910267048.1 | 申請日: | 2019-04-03 |
| 公開(公告)號: | CN110097049A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 韓琥;宋宇;崔元順;山世光;陳熙霖 | 申請(專利權)人: | 中國科學院計算技術研究所;中科視拓(北京)科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本檢測 自然場景 網絡 卷積 融合 篩選 卷積神經網絡 神經網絡模型 圖像特征提取 循環神經網絡 多尺度特征 注意力機制 語義 層次信息 初始檢測 前景文字 融合網絡 文本識別 文本信息 語義特征 多尺度 置信度 檢測 準確率 過濾 混淆 輸出 預測 | ||
本發明提出一種自然場景文本檢測方法及系統,包含兩個神經網絡模型:基于多層次語義特征融合的文本檢測網絡和基于注意力機制的檢測篩選網絡。文本檢測網絡是一個基于FCN的圖像特征提取融合網絡,該網絡用于提取輸入數據的多語義層次信息,并進行多尺度特征的充分融合,最后通過對融合的多尺度信息進行卷積操作,預測自然場景中的文本信息的位置和置信度。檢測篩選網絡是利用訓練好的卷積循環神經網絡對第一部分的卷積神經網絡輸出的初始檢測結果進行判別評分從而過濾掉易與前景文字混淆的背景,從而進一步提升自然場景文本識別的準確率。
技術領域
本發明涉及計算機視覺、文檔分析與識別和自然場景文本檢測領域,并特別涉及一種自然場景文本檢測方法及系統。
背景技術
自然場景文本檢測是一項既重要又極其富有挑戰的任務。由于自然場景文本檢測通常是在開放場景下對場景中的文本進行識別,因此光照、角度和畸變等因素對文本檢測造成很大的干擾,嚴重影響文本檢測的準確性。傳統的文本檢測普遍使用基于ConnectedComponents(連通部件)的技術,但是該技術只能提取較為明顯的文本區域,難以將圖像中全局信息考慮在內,因此該技術性能較為有限。目前基于深度學習的自然場景文本檢測由于大多采用了基于Proposal(候選框)的技術,其性能相比傳統方法有較大提升,但目前也遇到瓶頸,即難以應對復雜自然場景中光照、背景、角度以及文本表觀和角度的多樣性,特別是復雜背景易與文本前景混淆。究其原因是現有的特征表示方法在上述條件下缺乏對復雜背景和前景文字的判別力。如果能夠在考慮全局特征的情況下,使用文本識別技術加以矯正和精調,自然場景文本檢測的精確度和魯棒性可以獲得有效提升。因此,為提升自然場景下文本檢測的準確性和魯棒性,我們提出了一種將基于多層次語義特征的文本檢測網絡和基于注意力機制的識別后處理網絡相結合的自然場景文本檢測技術。
發明內容
本發明的目的是解決基于深度卷積神經網絡的自然場景文本檢測方法中,復雜背景易與前景文本混淆的問題。所提出的方法在保證文本檢測召回率的前提下,有效提升了檢測準確率。
針對現有技術的不足,本發明提出一種自然場景文本檢測方法,其中包括:
步驟1、獲取包括多張訓練圖片的訓練集,該訓練圖片均為自然場景且已被標記文字位置,構建包括特征提取網絡和特征融合網絡的深度特征融合網絡;
步驟2、通過該特征提取網絡提取該訓練圖片的多尺度圖像特征,將該多尺度圖像特征輸入該特征融合網絡得到融合特征,并由該特征融合網絡中最后一個卷積層確定該訓練圖像的文本區域,根據該文字位置、該文本區域和該文本區域內包括文本的置信度構建損失函數;
步驟3、重新選取該訓練圖片,多次執行該步驟2以訓練該深度特征融合網絡,直到該損失函數收斂,保存該深度特征融合網絡作為文本檢測模型;
步驟4、以該訓練集訓練卷積循環神經網絡,訓練完成后,通過修改該卷積循環神經網絡的翻譯層為二分類層,并將修改后的該卷積循環神經網絡作為文本識別網絡;
步驟5、將待文字檢測的自然場景圖像送入該文本檢測模型,得到初步文本區域,并通過該文本識別網絡篩選該初步文本區域,將篩選結果作為文本檢測結果。
所述的自然場景文本檢測方法,其中該卷積循環神經網絡包括:卷積層、編碼層、注意力層、解碼層和翻譯層;
通過該卷積層提取該訓練圖片的卷積特征圖;
通過該編碼層將該卷積特征圖整合為序列特征并進行編碼;
該注意力層根據序列信息和編碼結果重新加權整合送入該解碼層進行解碼,將解碼后的信息送入該翻譯層翻譯為目標文本。
所述的自然場景文本檢測方法,其中使用聯結時間的分類損失函數訓練該卷積循環神經網絡,直到該聯結時間的分類損失函數收斂,訓練完成;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;中科視拓(北京)科技有限公司,未經中國科學院計算技術研究所;中科視拓(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910267048.1/2.html,轉載請聲明來源鉆瓜專利網。





