[發明專利]自動分割字符區域的圖像文字檢測模型訓練方法及裝置有效
| 申請號: | 202110021189.2 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112733857B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 張樂平;張博;楊濤;侯磊;李海峰 | 申請(專利權)人: | 北京匠數科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京盛凡佳華專利代理事務所(普通合伙) 11947 | 代理人: | 王翠 |
| 地址: | 100036 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 分割 字符 區域 圖像 文字 檢測 模型 訓練 方法 裝置 | ||
自動分割字符區域的圖像文字檢測模型訓練方法及裝置,使用多層卷積神經網絡抽取圖像特征,然后通過卷積層將通道數轉換為類別個數;生成的是目標圖像按比例縮小的特征圖,每個像素點的值是對應的類別,將特征圖放大至目標圖像尺寸即可作為文字區域的掩碼圖;將掩碼與原圖疊加即可得到包含文字的區域子圖像;能夠識別一行文字中的間隙并標記為背景,從而在掩碼圖中每個文字字符都已分隔開,只需簡單的圖像處理操作即可得到單個字符的圖像。本發明得到的文字檢測模型能夠完成字符級別的文字檢測,在檢測過程中直接劃分字符區域,簡化圖像文字識別的流程,提高計算性能;能夠自動構建海量訓練數據提供豐富的特征信息,以低成本訓練高質量模型。
技術領域
本發明涉及圖像識別技術領域,具體涉及一種自動分割字符區域的圖像文字檢測模型訓練方法。
背景技術
文字區域檢測通常使用圖像檢測模型(如Yolo,SSD等),圖像檢測模型能夠輸出文字區域坐標從而提取出對應的區域子圖像。而區域子圖像雖然包含了相鄰范圍內的所有文字,但并沒有區分其中每一個字符的位置和輪廓,仍需要在字符識別模型中使用循環神經網絡對整個文字區域進行滑動探測,以此識別出每一個字符。
文字區域檢測模型的訓練數據使用的是較大尺寸的帶文本圖像,人工標注其中的文字區域,訓練數據使用人工標注成本高,模型推理階段不能切分字符,導致后續需要用更加復雜的文字識別模型(基于循環神經網絡)來分析識別字符,模型尺寸較大,推理時間長,難以應用在實時圖像流分析場景和嵌入式系統上。綜上亟需一種新的圖像文字檢測模型訓練技術方案。
發明內容
為此,本發明實施例提供一種自動分割字符區域的圖像文字檢測模型訓練方法及裝置,使得到的圖像文字檢測模型能夠完成字符級別的文字檢測,實現低成本訓練高質量的圖像文字檢測模型。
為了實現上述目的,本發明的實施方式提供如下技術方案:一種自動分割字符區域的圖像文字檢測模型訓練方法,包括以下步驟:
采用卷積神經網絡抽取目標圖像特征,利用卷積層將所述目標圖像的通道數轉換為類別個數;
通過文字區域檢測模型生成所述目標圖像按比例縮小的特征圖,將所述特征圖中每個像素點的值對應于所述類別;
將所述特征圖放大至所述目標圖像的尺寸并作為文字區域的掩碼圖,將生成的掩碼與目標圖像疊加獲得包含文字的區域子圖像;
對所述區域子圖像進行文字間隙識別,將所述文字間隙標記為背景,使所述掩碼圖中每個文字字符分隔開。
作為自動分割字符區域的圖像文字檢測模型訓練方法的優選方案,所述文字區域檢測模型在訓練時按照圖像分類模型進行訓練,將卷積層輸出后添加Flatten層轉換,再添加一個softmax層輸出類別。
作為自動分割字符區域的圖像文字檢測模型訓練方法的優選方案,所述文字區域檢測模型在推理時,去掉最后的Flatten層和softmax層,直接獲取卷積層的輸出。
作為自動分割字符區域的圖像文字檢測模型訓練方法的優選方案,對所述目標圖像采用原始尺寸或按比例縮放后進行輸入,采用文字區域檢測模型對整張目標圖像進行掃描和特征提取,每次卷積依次提取目標圖像的一塊區域,對文字區域檢測模型前向計算得到每個區域的對應特征。
作為自動分割字符區域的圖像文字檢測模型訓練方法的優選方案,當區域中出現預設范圍字符時將該區域標記為文字區域;
在對輸入的目標圖像掃描的過程中,當計算窗口經過一組字符時,將字符的周圍均輸出為0,字符中心輸出為1,在最終的特征圖上把每個字符區域分割開來。
作為自動分割字符區域的圖像文字檢測模型訓練方法的優選方案,進行文字圖像生成工具構建,通過所述文字圖像生成工具隨機設定字體、灰度和大小,從已有的語料庫中隨機選取文字組合打印成為文字位圖;將所述文字位圖合并至隨機選取的背景圖像上,根據窗口采樣規則提取選定區域作為訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京匠數科技有限公司,未經北京匠數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110021189.2/2.html,轉載請聲明來源鉆瓜專利網。





