[發明專利]文本圖像的檢測方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201910905231.X | 申請日: | 2019-09-24 |
| 公開(公告)號: | CN110674804A | 公開(公告)日: | 2020-01-10 |
| 發明(設計)人: | 周康明;吳昊 | 申請(專利權)人: | 上海眼控科技股份有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 44224 廣州華進聯合專利商標代理有限公司 | 代理人: | 黃麗霞 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本圖像 候選框 特征圖 文本 多層 檢測 文本特征 文本預測 可偏移 非極大值抑制 計算機設備 存儲介質 模型掃描 特征提取 網絡模型 文本檢測 文本位置 冗余 映射 貼合 匹配 尺度 輸出 預測 申請 學習 | ||
本申請涉及一種文本圖像的檢測方法、裝置、計算機設備和存儲介質,通過將待進行檢測的文本圖像輸入至具有多層輸出的特征提取網絡模型中,得到多層特征圖,以提高后續預測不同尺度文本位置的能力,并采用基于深度學習的文本檢測模型掃描多層特征圖中的各層特征圖,得到匹配的具有可偏移的文本候選框,使其更加貼合目標,進而將具有可偏移的文本候選框映射回待進行檢測的文本圖像上,并采用非極大值抑制法去掉冗余的文本候選框,將得分最高的文本候選框作為待進行檢測的文本圖像的文本預測框,從而可以根據最后的文本預測框進行文本特征的提取,以解決文本特征與背景難以區分的問題。
技術領域
本申請涉及文本檢測技術領域,特別是涉及一種文本圖像的檢測方法、裝置、計算機設備和存儲介質。
背景技術
隨著現代人工智能技術的發展,越來越多的繁瑣工作被機器或電腦所取代。比如一些文本的識別錄入,如果僅僅依靠人工來完成,不僅耗時費力,而且會因為操作人員的疲勞疏忽等原因導致問題的產生。因此,可以利用光學字符識別技術,從而通過計算機自動完成文本字符的識別和錄入。
而作為光學字符識別的基礎,首先必然需要在各個場景中定位到文本區域,即文本定位技術是根本。目前使用較多的方法都是采用類似目標檢測的定位分類方法,但是由于文本大多為長矩形,寬高比分布較為極端,與普通的目標檢測中的物體不一樣,普通物體寬高比基本在1左右,且存在明顯的閉合邊緣輪廓,而文本并沒有這種明顯的閉合邊緣輪廓,從而導致直接提取文本的圖像特征極容易和背景區分不開。
發明內容
基于此,有必要針對上述難以直接提取文本的圖像特征的問題,提供一種文本圖像的檢測方法、裝置、計算機設備和存儲介質。
為了實現上述目的,一方面,本申請實施例提供了一種文本圖像的檢測方法,所述方法包括:
將待進行檢測的文本圖像輸入至具有多層輸出的特征提取網絡模型中,得到多層特征圖;
采用基于深度學習的文本檢測模型掃描多層特征圖中的各層特征圖,得到匹配的具有可偏移的文本候選框;
將具有可偏移的文本候選框映射回待進行檢測的文本圖像上,采用非極大值抑制法去掉冗余的文本候選框,將得分最高的文本候選框作為待進行檢測的文本圖像的文本預測框。
在其中一個實施例中,具有多層輸出的特征提取網絡模型包括由多個卷積層組成的金字塔特征提取網絡;則將待進行檢測的文本圖像輸入至具有多層輸出的特征提取網絡模型中,得到多層特征圖,包括:將待進行檢測的文本圖像輸入至金字塔特征提取網絡;由金字塔特征提取網絡通過不同的卷積層進行特征融合,輸出不同層次的特征圖。
在其中一個實施例中,基于深度學習的文本檢測模型的構建方法包括:獲取帶有文本框的樣本圖像數據集,其中,文本框包括標注了文本框的坐標信息的訓練標簽;采用包括訓練標簽的樣本圖像數據集,利用反向傳播算法訓練深度學習網絡模型,獲得文本檢測模型。
在其中一個實施例中,利用反向傳播算法訓練深度學習網絡模型,采用的損失函數為多任務損失函數:其中, L(x,c,l,g)表示模型的總損失,Lconf表示模型的分類損失,Lloc表示模型的定位損失,α表示定位損失占據的比重,g為標注的文本框,l為文本預測框,N表示匹配到標注的文本框的錨點框的數量,x表示匹配的文本框是否屬于正樣本的概率,取值0或1,c表示匹配的文本框屬于正樣本的置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海眼控科技股份有限公司,未經上海眼控科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910905231.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于多色光源對煤塊、煤矸石和瑞敏材料的識別方法
- 下一篇:昆蟲識別方法及系統





