[發明專利]自動分割字符區域的圖像文字檢測模型訓練方法及裝置有效
| 申請號: | 202110021189.2 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112733857B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 張樂平;張博;楊濤;侯磊;李海峰 | 申請(專利權)人: | 北京匠數科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京盛凡佳華專利代理事務所(普通合伙) 11947 | 代理人: | 王翠 |
| 地址: | 100036 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 分割 字符 區域 圖像 文字 檢測 模型 訓練 方法 裝置 | ||
1.一種自動分割字符區域的圖像文字檢測模型訓練方法,其特征在于,包括以下步驟:
采用卷積神經網絡抽取目標圖像特征,利用卷積層將所述目標圖像的通道數轉換為類別個數;
通過文字區域檢測模型生成所述目標圖像按比例縮小的特征圖,將所述特征圖中每個像素點的值對應于所述類別;
將所述特征圖放大至所述目標圖像的尺寸并作為文字區域的掩碼圖,將生成的掩碼與目標圖像疊加獲得包含文字的區域子圖像;
對所述區域子圖像進行文字間隙識別,將所述文字間隙標記為背景,使所述掩碼圖中每個文字字符分隔開;
所述文字區域檢測模型在訓練時按照圖像分類模型進行訓練,在卷積層輸出后添加Flatten層轉換,再添加一個softmax層輸出類別;
所述文字區域檢測模型在推理時,去掉最后的Flatten層和softmax層,直接獲取卷積層的輸出。
2.根據權利要求1所述的一種自動分割字符區域的圖像文字檢測模型訓練方法,其特征在于,對所述目標圖像采用原始尺寸或按比例縮放后進行輸入,采用文字區域檢測模型對整張目標圖像進行掃描和特征提取,每次卷積依次提取目標圖像的一塊區域,對文字區域檢測模型前向計算得到每個區域的對應特征。
3.根據權利要求2所述的一種自動分割字符區域的圖像文字檢測模型訓練方法,其特征在于,當區域中出現預設范圍字符時將該區域標記為文字區域;
在對輸入的目標圖像掃描的過程中,當計算窗口經過一組字符時,將字符的周圍均輸出為0,字符中心輸出為1,在最終的特征圖上把每個字符區域分割開來。
4.根據權利要求1所述的一種自動分割字符區域的圖像文字檢測模型訓練方法,其特征在于,進行文字圖像生成工具構建,通過所述文字圖像生成工具隨機設定字體、灰度和大小,從已有的語料庫中隨機選取文字組合打印成為文字位圖;將所述文字位圖合并至隨機選取的背景圖像上,根據窗口采樣規則提取選定區域作為訓練數據。
5.根據權利要求4所述的一種自動分割字符區域的圖像文字檢測模型訓練方法,其特征在于,對窗口采樣的區域圖像進行圖像增強處理,所述圖像增強處理包括高斯噪聲、高斯濾波、圖像顏色翻轉和直方圖均衡。
6.根據權利要求5所述的一種自動分割字符區域的圖像文字檢測模型訓練方法,其特征在于,通過所述文字圖像生成工具讀入配置參數,所述配置參數包括生成訓練數據的總數、背景圖像的數據源目錄、字體庫路徑和采樣區域的隨機權重分布以及圖像增強的隨機權重指數;
通過所述文字圖像生成工具對目標圖像進行多進程處理,依次執行字符串生成、背景圖像選取、文字打印參數選取、執行文字打印、窗口采樣和圖像增強步驟,將得到的采樣圖像統一縮放至預設大小并與標注數據一并壓縮為記錄文件作為文字區域檢測模型的訓練數據集。
7.一種自動分割字符區域的圖像文字檢測模型訓練裝置,其特征在于,包括:
圖像特征提取單元,用于采用卷積神經網絡抽取目標圖像特征,利用卷積層將所述目標圖像的通道數轉換為類別個數;
像素點類別處理單元,用于通過文字區域檢測模型生成所述目標圖像按比例縮小的特征圖,將所述特征圖中每個像素點的值對應于所述類別;
區域子圖像生成單元,用于將所述特征圖放大至所述目標圖像的尺寸并作為文字區域的掩碼圖,將生成的掩碼與目標圖像疊加獲得包含文字的區域子圖像;
文字間隙識別單元,用于對所述區域子圖像進行文字間隙識別,將所述文字間隙標記為背景,使所述掩碼圖中每個文字字符分隔開;
用于執行以下步驟的單元:所述文字區域檢測模型在訓練時按照圖像分類模型進行訓練,在卷積層輸出后添加Flatten層轉換,再添加一個softmax層輸出類別;
所述文字區域檢測模型在推理時,去掉最后的Flatten層和softmax層,直接獲取卷積層的輸出。
8.根據權利要求7所述的一種自動分割字符區域的圖像文字檢測模型訓練裝置,其特征在于,還包括:
文字圖像生成單元,用于通過文字圖像生成工具隨機設定字體、灰度和大小,從已有的語料庫中隨機選取文字組合打印成為文字位圖;將所述文字位圖合并至隨機選取的背景圖像上,根據窗口采樣規則提取選定區域作為訓練數據;
圖像增強單元,用于對窗口采樣的區域圖像進行圖像增強處理,所述圖像增強處理包括高斯噪聲、高斯濾波、圖像顏色翻轉和直方圖均衡;
通過所述文字圖像生成工具讀入配置參數,所述配置參數包括生成訓練數據的總數、背景圖像的數據源目錄、字體庫路徑和采樣區域的隨機權重分布以及圖像增強的隨機權重指數;
通過所述文字圖像生成工具對目標圖像進行多進程處理,依次執行字符串生成、背景圖像選取、文字打印參數選取、執行文字打印、窗口采樣和圖像增強步驟,將得到的采樣圖像統一縮放至預設大小并與標注數據一并壓縮為記錄文件作為文字區域檢測模型的訓練數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京匠數科技有限公司,未經北京匠數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110021189.2/1.html,轉載請聲明來源鉆瓜專利網。





