[發(fā)明專利]一種基于全卷積網(wǎng)絡的場景文本定位與識別方法有效
| 申請?zhí)枺?/td> | 202010340617.3 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111553349B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設計)人: | 楊海東;黃坤山;巴姍姍;彭文瑜;林玉山 | 申請(專利權)人: | 佛山市南海區(qū)廣工大數(shù)控裝備協(xié)同創(chuàng)新研究院;佛山市廣工大數(shù)控裝備技術發(fā)展有限公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V10/774;G06V10/82;G06N3/0464 |
| 代理公司: | 廣州科沃園專利代理有限公司 44416 | 代理人: | 徐莉 |
| 地址: | 528200 廣東省佛山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 網(wǎng)絡 場景 文本 定位 識別 方法 | ||
本發(fā)明公開一種基于全卷積網(wǎng)絡的場景文本定位與識別方法,包括S1、獲取包含數(shù)張已標記出文本位置的訓練圖片的訓練集;S2、構建一個基于文本定位的全卷積神經(jīng)網(wǎng)絡模型,全卷積神經(jīng)網(wǎng)絡模型包括特征提取網(wǎng)絡、特征融合網(wǎng)絡和文本候選框篩選層,將訓練集輸入到基于文本定位的全卷積神經(jīng)網(wǎng)絡模型中進行訓練,迭代模型參數(shù)后得到收斂的文本定位網(wǎng)絡模型Model1等5個步驟,本發(fā)明克服了傳統(tǒng)的文本檢測與識別方法,利用深度學習的目標檢測進行場景圖像中的文本的實時定位,實現(xiàn)高精度和高效率的場景文本定位與識別方法。
技術領域
本發(fā)明涉及文本定位與識別技術領域,尤其涉及一種基于全卷積網(wǎng)絡的場景文本定位與識別方法。
背景技術
文本作為最具有表現(xiàn)力的信息表達方式,記錄著人類多彩的科技文化,可作為交流信息嵌入到文檔或場景中。場景圖像中的文本可大致分為兩類:人工文本和場景文本。隨著互聯(lián)網(wǎng)科技的發(fā)展,文本定位與識別技術已在生活中得到了廣泛應用,如車牌識別、身份證識別等。傳統(tǒng)的ORC識別技術只能用于識別背景單一、字體固定的印刷體,但是場景圖像上的文本存在多樣性,如排列不整齊、字體大小不統(tǒng)一,另外,因光照強度或拍照角度等因素導致字體模糊、殘缺等問題對文本檢測造成了強大的干擾,嚴重影響了文本檢測的準確性,以使場景文本定位與識別是一項極其富有挑戰(zhàn)性的任務。因此,為提升場景文本檢測的準確性,我們提出了一種基于全卷積網(wǎng)絡的場景文本定位與識別方法。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明提出一種基于全卷積網(wǎng)絡的場景文本定位與識別方法,主要解決背景技術中的問題。
本發(fā)明提出一種全卷積網(wǎng)絡的場景文本定位與識別方法,包括以下步驟:
S1、獲取包含數(shù)張已標記出文本位置的訓練圖片的訓練集;
S2、構建一個基于文本定位的全卷積神經(jīng)網(wǎng)絡模型,所述全卷積神經(jīng)網(wǎng)絡模型包括特征提取網(wǎng)絡、特征融合網(wǎng)絡和文本候選框篩選層,將所述訓練集輸入到所述基于文本定位的全卷積神經(jīng)網(wǎng)絡模型中進行訓練,迭代模型參數(shù)后得到收斂的文本定位網(wǎng)絡模型Model1;
S3、構建文本識別網(wǎng)絡模型,所述文本識別網(wǎng)絡中包括卷積神經(jīng)網(wǎng)絡層、注意力機制層、循環(huán)神經(jīng)網(wǎng)絡層和翻譯層,將所述訓練集輸入到所述文本識別網(wǎng)絡模型中進行訓練,迭代模型參數(shù)后得到收斂的文本識別網(wǎng)絡模型Model2;
S4、將待文本定位與識別的場景圖像輸入到所述文本定位網(wǎng)絡模型Model1中得到文本存在置信度及文本區(qū)域位置,經(jīng)過篩選后處理輸出最佳文本候選框;
S5、將含有最佳文本候選框的圖像輸入到所述文本識別網(wǎng)絡模型Model2中,得到文本識別結果。
進一步改進在于,所述特征提取網(wǎng)絡由卷積層和池化層組成,用于提取出輸入圖像的卷積特征圖;所述特征融合網(wǎng)絡是將多特征預測層與不同階段的特征層進行卷積,預測出文本存在置信度和文本區(qū)域位置;所述文本候選框篩選層作用是對不同文本區(qū)域候選框后處理,得到最佳文本候選框位置。
進一步改進在于,所述步驟S2中基于文本定位的全卷積神經(jīng)網(wǎng)絡模型的構建過程為:
S21、通過特征提取網(wǎng)絡提取多尺度特征;
S22、通過特征融合網(wǎng)絡進行多尺度特征融合;
S23、通過文本候選框篩選輸出含有最佳文本候選框的圖像。
進一步改進在于,所述步驟S23中每個所述文本候選框均有一個置信度得分,通過所述文本候選框處理移除非最佳候選框,最終篩選出最佳文本候選框的圖像,其具體包括:
S231、將所有的文本候選框按照置信度得分從高到低排序,將得分最高的作為當前最佳候選框a,將剩余候選框依次作為后選最佳文本候選框b;
S232、計算后選出最佳文本候選框b與當前最佳文本候選框a的重疊度,重疊度計算公式為兩者重疊面積與兩者并集面積之比,即:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山市南海區(qū)廣工大數(shù)控裝備協(xié)同創(chuàng)新研究院;佛山市廣工大數(shù)控裝備技術發(fā)展有限公司,未經(jīng)佛山市南海區(qū)廣工大數(shù)控裝備協(xié)同創(chuàng)新研究院;佛山市廣工大數(shù)控裝備技術發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010340617.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





