[發明專利]一種自然場景文本檢測方法及系統在審
| 申請號: | 201910267048.1 | 申請日: | 2019-04-03 |
| 公開(公告)號: | CN110097049A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 韓琥;宋宇;崔元順;山世光;陳熙霖 | 申請(專利權)人: | 中國科學院計算技術研究所;中科視拓(北京)科技有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本檢測 自然場景 網絡 卷積 融合 篩選 卷積神經網絡 神經網絡模型 圖像特征提取 循環神經網絡 多尺度特征 注意力機制 語義 層次信息 初始檢測 前景文字 融合網絡 文本識別 文本信息 語義特征 多尺度 置信度 檢測 準確率 過濾 混淆 輸出 預測 | ||
1.一種自然場景文本檢測方法,其特征在于,包括:
步驟1、獲取包括多張訓練圖片的訓練集,該訓練圖片均為自然場景且已被標記文字位置,構建包括特征提取網絡和特征融合網絡的深度特征融合網絡;
步驟2、通過該特征提取網絡提取該訓練圖片的多尺度圖像特征,將該多尺度圖像特征輸入該特征融合網絡得到融合特征,并由該特征融合網絡中最后一個卷積層確定該訓練圖像的文本區域,根據該文字位置、該文本區域和該文本區域內包括文本的置信度構建損失函數;
步驟3、重新選取該訓練圖片,多次執行該步驟2以訓練該深度特征融合網絡,直到該損失函數收斂,保存該深度特征融合網絡作為文本檢測模型;
步驟4、以該訓練集訓練卷積循環神經網絡,訓練完成后,通過修改該卷積循環神經網絡的翻譯層為二分類層,并將修改后的該卷積循環神經網絡作為文本識別網絡;
步驟5、將待文字檢測的自然場景圖像送入該文本檢測模型,得到初步文本區域,并通過該文本識別網絡篩選該初步文本區域,將篩選結果作為文本檢測結果。
2.如權利要求1所述的自然場景文本檢測方法,其特征在于,該卷積循環神經網絡包括:卷積層、編碼層、注意力層、解碼層和翻譯層;
通過該卷積層提取該訓練圖片的卷積特征圖;
通過該編碼層將該卷積特征圖整合為序列特征并進行編碼;
該注意力層根據序列信息和編碼結果重新加權整合送入該解碼層進行解碼,將解碼后的信息送入該翻譯層翻譯為目標文本。
3.如權利要求2所述的自然場景文本檢測方法,其特征在于,使用聯結時間的分類損失函數訓練該卷積循環神經網絡,直到該聯結時間的分類損失函數收斂,訓練完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss為聯結時間的分類損失函數,predict為該卷積循環神經網絡最后一層的預測概率輸出,labels為輸入訓練圖片的文本內容標簽。
4.如權利要求1所述的自然場景文本檢測方法,其特征在于,步驟2中該損失函數包括Dice Loss損失函數和IoU Loss損失函數
其中,Dice Loss損失函數用于監督文本區域分類概率的預測:
其中P和G分別對應圖像的文本預測置信度的真實的置信度,⊙代表哈達瑪積;
IoU Loss損失函數用于監督文本區域位置的預測:
其中Rp和Rg分別代表預測的文本區域坐標和實際的文本區域坐標,θp和θg分別代表預測的文本區域的角度和實際的文本區域的角度。
5.如權利要求1所述的自然場景文本檢測方法,其特征在于,步驟5中該文本識別網絡篩選該初步文本區域的過程為:
該文本識別網絡的卷積層部分從該初步文本區域中提取卷積特征圖作為有效信息,將該有效信息按照預設順序整合為序列特征送入該初步文本區域中編碼層進行編碼,得到編碼信息,該初步文本區域中注意力層根據該預設順序加權整合該編碼信息后送入解碼層,將解碼后的信息送入該二分類層,判斷該初步文本區域內是否具有文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;中科視拓(北京)科技有限公司,未經中國科學院計算技術研究所;中科視拓(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910267048.1/1.html,轉載請聲明來源鉆瓜專利網。





