[發明專利]文本圖像的檢測方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201910905231.X | 申請日: | 2019-09-24 |
| 公開(公告)號: | CN110674804A | 公開(公告)日: | 2020-01-10 |
| 發明(設計)人: | 周康明;吳昊 | 申請(專利權)人: | 上海眼控科技股份有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 44224 廣州華進聯合專利商標代理有限公司 | 代理人: | 黃麗霞 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本圖像 候選框 特征圖 文本 多層 檢測 文本特征 文本預測 可偏移 非極大值抑制 計算機設備 存儲介質 模型掃描 特征提取 網絡模型 文本檢測 文本位置 冗余 映射 貼合 匹配 尺度 輸出 預測 申請 學習 | ||
1.一種文本圖像的檢測方法,其特征在于,所述方法包括:
將待進行檢測的文本圖像輸入至具有多層輸出的特征提取網絡模型中,得到多層特征圖;
采用基于深度學習的文本檢測模型掃描所述多層特征圖中的各層特征圖,得到匹配的具有可偏移的文本候選框;
將所述具有可偏移的文本候選框映射回所述待進行檢測的文本圖像上,采用非極大值抑制法去掉冗余的文本候選框,將得分最高的文本候選框作為所述待進行檢測的文本圖像的文本預測框。
2.根據權利要求1所述的文本圖像的檢測方法,其特征在于,所述具有多層輸出的特征提取網絡模型包括由多個卷積層組成的金字塔特征提取網絡;所述將待進行檢測的文本圖像輸入至具有多層輸出的特征提取網絡模型中,得到多層特征圖,包括:
將待進行檢測的文本圖像輸入至所述金字塔特征提取網絡;
由所述金字塔特征提取網絡通過不同的卷積層進行特征融合,輸出不同層次的特征圖。
3.根據權利要求1所述的文本圖像的檢測方法,其特征在于,所述基于深度學習的文本檢測模型的構建方法包括:
獲取帶有文本框的樣本圖像數據集,所述文本框包括標注了所述文本框的坐標信息的訓練標簽;
采用包括所述訓練標簽的所述樣本圖像數據集,利用反向傳播算法訓練深度學習網絡模型,獲得文本檢測模型。
4.根據權利要求3所述的文本圖像的檢測方法,其特征在于,所述利用反向傳播算法訓練深度學習網絡模型,采用的損失函數為多任務損失函數:
其中,L(x,c,l,g)表示模型的總損失,Lconf表示模型的分類損失,Lloc表示模型的定位損失,α表示定位損失占據的比重,g為標注的文本框,l為文本預測框,N表示匹配到標注的文本框的錨點框的數量,x表示匹配的文本框是否屬于正樣本的概率,取值0或1,c表示匹配的文本框屬于正樣本的置信度。
5.根據權利要求3所述的文本圖像的檢測方法,其特征在于,所述采用基于深度學習的文本檢測模型掃描所述多層特征圖中的各層特征圖,得到匹配的具有可偏移的文本候選框,包括:
對所述多層特征圖中的各層特征圖經由卷積核后輸出調整后的特征圖;
在所述調整后的特征圖上滑窗,得到與每個錨點的預設錨點框大小和尺度匹配的文本框的坐標信息,并計算所述文本框的文本置信度;
根據得到的文本置信度大于預設文本置信度的文本框的坐標信息,學習得到對應預設錨點框相對于匹配的文本框的偏移量;
根據所述預設錨點框相對于匹配的文本框的偏移量得到具有可偏移的文本候選框。
6.根據權利要求5所述的文本圖像的檢測方法,其特征在于,所述預設錨點框的大小根據所述樣本圖像數據集中所述文本框的尺寸統計進行設置,所述預設錨點框的長寬比為1、2、3、5、二分之一、三分之一和/或五分之一。
7.根據權利要求5所述的文本圖像的檢測方法,其特征在于,所述文本框的坐標信息包括所述文本框的四個頂點的坐標;所述學習得到對應預設錨點框相對于匹配的文本框的偏移量,包括:
根據所述預設錨點框的各頂點坐標相對于匹配的所述文本框的四個頂點的坐標的偏移,學習得到所述預設錨點框相對于匹配的文本框的偏移量。
8.一種文本圖像的檢測裝置,其特征在于,所述裝置包括:
特征提取模塊,用于將待進行檢測的文本圖像輸入至具有多層輸出的特征提取網絡模型中,得到多層特征圖;
候選框生成模塊,用于采用基于深度學習的文本檢測模型掃描所述多層特征圖中的各層特征圖,得到匹配的具有可偏移的文本候選框;
文本框預測模塊,用于將所述具有可偏移的文本候選框映射回所述待進行檢測的文本圖像上,采用非極大值抑制法去掉冗余的文本候選框,將得分最高的文本候選框作為所述待進行檢測的文本圖像的文本預測框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海眼控科技股份有限公司,未經上海眼控科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910905231.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于多色光源對煤塊、煤矸石和瑞敏材料的識別方法
- 下一篇:昆蟲識別方法及系統





