[發明專利]自然場景的文本識別方法、可讀存儲介質及文本識別裝置在審
| 申請號: | 202111565107.7 | 申請日: | 2021-12-20 |
| 公開(公告)號: | CN114220108A | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 李球;王和平;陳昌全;陳余泉;徐波;陳雅瓊 | 申請(專利權)人: | 盛視科技股份有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/148;G06N3/04;G06N3/08;G06V30/10;G06V10/22;G06V30/18;G06V10/24 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市福田區華富街道蓮花一村社區彩田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然 場景 文本 識別 方法 可讀 存儲 介質 裝置 | ||
1.一種自然場景的文本識別方法,其特征在于,包括:
獲取待識別文本圖像,對所述待識別文本圖像進行文本區域檢測獲得矩形框的第一文本區域;
對第一文本區域進行透視變換,并對透視變換后的第一文本區域進行旋轉獲得第二文本區域,使第二文本區域的矩形框的長邊與X軸平行;
基于深度學習模型訓練獲得角度檢測模型,利用所述角度檢測模型檢測第二文本區域內的文字的角度,根據所述角度檢測模型檢測的角度對矩形框的第二文本區域進行文字角度調整獲得第三文本區域,使第三文本區域內的文字夾角為0度;
對所述第三文本區域內的字符進行單字符分割和單字符識別;
其中,X軸和Y軸相互垂直構成圖像坐標系,文字角度為文字與Y軸的夾角。
2.如權利要求1所述的自然場景的文本識別方法,其特征在于,對透視變換后的第一文本區域進行旋轉獲得第二文本區域的步驟包括:
判斷第一文本區域的矩形框在Y軸和X軸的長度比是否大于1.5;
若是,將矩形框的第一文本區域逆時針旋轉90度;
否者,對矩形框的第一文本區域進行逆時針旋轉0度。
3.如權利要求1所述的自然場景的文本識別方法,其特征在于,基于深度學習模型訓練獲得角度檢測模型的步驟包括:
截取自然場景中字符橫向平行分布且文字角度為0度的矩形框的文本圖像作為數據集;
將數據集分成六份,分別記為第一份數據,第二份數據、第三份數據、第四份數據、第五份數據和第六份數據;
將第一份數據中的每一文本圖像的每個字符進行逆時針旋轉0度獲得第一訓練數據集;將第二份數據中的每二文本圖像的每個字符進行逆時針旋轉90度獲得第二訓練數據集;將第三份數據中的每三文本圖像的每個字符進行逆時針旋轉180度獲得第三訓練數據集;將第四份數據中的每四文本圖像的每個字符進行逆時針旋轉270度獲得第四訓練數據集;將第五份數據中的每五文本圖像的每個字符進行逆時針旋轉45度獲得第五訓練數據集;將第六份數據中的每六文本圖像的每個字符進行順時針旋轉負45度獲得第六訓練數據集;
利用ShuffleNetV2網絡模型的特征層提取第一訓練數據集、第二訓練數據集、第三訓練數據集、第四訓練數據集、第五訓練數據集和第六訓練數據集關于文本圖像的文字角度特征生成特征圖,基于ShuffleNetV2網絡模型進行學習訓練直至ShuffleNetV2網絡模型收斂,獲得角度檢測模型。
4.如權利要求3所述的自然場景的文本識別方法,其特征在于,設定第一訓練數據集、第二訓練數據集、第三訓練數據集、第四訓練數據集、第五訓練數據集和第六訓練數據集中文本圖像的數量相同。
5.如權利要求3所述的自然場景的文本識別方法,其特征在于,根據所述角度檢測模型檢測的角度對矩形框的第二文本區域進行文字角度調整獲得第三文本區域的步驟包括:
若所述角度檢測模型檢測的第二文本區域內的文字角度為0度,則維持所述第二文本區域內的文字的角度不變;
若所述角度檢測模型檢測的第二文本區域內的文字角度為90度,則將第二文本區域逆時針旋轉270度;
若所述角度檢測模型檢測的第二文本區域內的文字角度為180度,則將第二文本區域逆時針旋轉180度;
若所述角度檢測模型檢測的第二文本區域內的文字角度為270度,則將第二文本區域逆時針旋轉90度;
若所述角度檢測模型檢測的第二文本區域內的文字角度為45度,則將第二文本區域逆時針旋轉215度。
6.如權利要求1所述的自然場景的文本識別方法,其特征在于,對所述待識別文本圖像進行文本區域檢測獲得矩形框的第一文本區域的步驟包括:
利用3×3卷積核對所述文本圖像連續進行五次卷積操作,對該五次卷積的結果進行基于特征圖金字塔網絡的級聯融合獲得所述文本圖像的特征圖;
利用DBNet學習網絡對所述特征圖進行預測獲得關于文本的概率圖;
對概率圖進行閾值操作獲得關于文本的分割結果;
提取分割結果的輪廓,計算該輪廓的外接矩形框,該外接矩形框框起區域矩形框的第一文本區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛視科技股份有限公司,未經盛視科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111565107.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:軟巖隧道的初期支護方法
- 下一篇:一種卡格列凈丙酮水合物及其制備方法和用途





