[發明專利]一種圖片的文本定位方法、系統、設備以及介質在審
| 申請號: | 202011462612.4 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112633267A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 孫紅巖 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62;G06N3/04;G06N5/04 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 劉小峰;張元 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 圖片 文本 定位 方法 系統 設備 以及 介質 | ||
本發明公開了一種圖片的文本定位方法,包括以下步驟:構建圖像集、第一神經網絡和第二神經網絡;對圖像集中的圖像進行預處理得到第一訓練集,并對第一訓練集中的圖像進行旋轉和/或翻轉以得到第二訓練集;利用第一訓練集對第一神經網絡進行訓練并利用第二訓練集對第二神經網絡進行訓練,其中對每次訓練得到第一神經網絡的權重和第二神經網絡的權重進行加權后作為下一次訓練時第一神經網絡的權重;響應于第一神經網絡訓練完成,利用訓練完成的第一神經網絡對經過預處理的圖片進行推理以得到圖片的文本。本發明還公開了一種系統、計算機設備以及可讀存儲介質。本發明提出的方案可以無需進行標注,實現非監督訓練。
技術領域
本發明涉及文本識別領域,具體涉及一種圖片的文本定位方法、系統、設備以及存儲介質。
背景技術
光學字符識別(Optical Character Recognition,OCR)傳統上指對輸入掃描文檔圖像進行分析處理,識別出圖像中文字信息。對于OCR,目前有兩種方案來進行光學字符識別,第一種是文本定位+文本識別,第二種是端到端的模型。
對于文本定位+文本識別這種方案來說,主要是先由文本定位將圖像中的文本進行定位檢測,檢測到文本之后通過文本識別網絡來進行文本識別,進而識別出文字。目前文本定位領域的深度學習方法主要包括:基于候選框的文本檢測(Proposal-based)、基于分割的文本檢測(Segmentation-based)、基于兩者方法混合的文本檢測(Hybrid-based)、其它方法的文本檢測.對于基于候選框的文本檢測,對于規則文本的檢測可以起到很好的效果,但是對于彎曲文本的檢測并不理想,經典的算法包括CTPN等,基于分割的文本檢測(Segmentation-based)可以對于彎曲文本有很好的檢測效果。上述的方法在訓練時都需要提供標注信息,文本信息在標注是需要大量的時間和精力不說,還會出現經常標注錯誤或者標注模糊的現象,由于OCR文本檢測的特殊性,通常會采用自動合成數據集的方式來進行OCR訓練。但是自動合成的數據集同樣也會存在很多問題,包括數據集的多樣性匱乏,數據集和真實場景文本數據不一致等問題。
發明內容
有鑒于此,為了克服上述問題的至少一個方面,本發明實施例提出一種圖片的文本定位方法,包括以下步驟:
構建圖像集、第一神經網絡和第二神經網絡;
對所述圖像集中的圖像進行預處理得到第一訓練集,并對所述第一訓練集中的圖像進行旋轉和/或翻轉以得到第二訓練集;
利用所述第一訓練集對所述第一神經網絡進行訓練并利用所述第二訓練集對所述第二神經網絡進行訓練,其中對每次訓練得到所述第一神經網絡的權重和所述第二神經網絡的權重進行加權后作為下一次訓練時所述第一神經網絡的權重;
響應于所述第一神經網絡訓練完成,利用訓練完成的所述第一神經網絡對經過所述預處理的圖片進行推理以得到所述圖片的文本。
在一些實施例中,對所述圖像集中的圖像進行預處理,進一步包括:
提取所述圖像的特征圖;
對所述特征圖作預設大小的滑窗后重構得到特征向量;
將所述特征向量輸入到長短期記憶網絡;
將所述長短期記憶網絡的輸出進行重構后利用RPN網絡進行文本框的劃分;
將劃分的多個文本框經過全連接層后得到預處理后的圖像。
在一些實施例中,利用訓練完成的所述第一神經網絡對經過所述預處理的圖片進行推理以得到所述圖片的文本,進一步包括:
將所述待推理的圖片經過所述預處理后得到劃分有多個文本框的圖片;
將所述劃分有多個文本框的圖片輸入到所述訓練完成的所述第一神經網絡以得到總向量以及每一個文本框截取的圖像的子向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011462612.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種線路管理方法和裝置
- 下一篇:一種存儲加密去重的方法和系統





