[發明專利]一種基于多尺度特征金字塔的場景文本檢測方法及系統在審
| 申請號: | 202110789784.0 | 申請日: | 2021-07-13 |
| 公開(公告)號: | CN113673506A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 萬洪林;王嘉鑫;趙瑩瑩;王曉敏 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 尺度 特征 金字塔 場景 文本 檢測 方法 系統 | ||
本公開提供了一種基于多尺度特征金字塔的場景文本檢測方法及系統,包括:對圖像的場景文本進行標注;獲取文本位置標定好的數據集,將數據集分為訓練集和測試集;采用特征金字塔網絡,對訓練集進行自上而下的特征提取,同時,在特征金字塔網絡的C2層對訓練集進行不同尺度的特征提取;采用特征融合網絡,對自上而下特征提取的輸出特征在C2層與不同尺度特征提取的輸出特征進行融合,得到融合后的特征圖;將融合后的特征圖與特征金字塔網絡其他層的支路輸出的特征融合映射,得到訓練模型;用測試集驗證模型的有效性;本公開用特征金字塔網絡作為骨干網,在骨干網中加入用空洞卷積調節感受野的多尺度模塊,以此來提高檢測大小差異較大文本的精確度。
技術領域
本公開屬于計算機視覺技術領域,尤其涉及一種基于多尺度特征金字塔的場景文本檢測方法及系統。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在先技術。
自然場景下的文字檢測與識別技術是計算機視覺領域的研究熱點,大量的研究人員對該方向進行了長期的探索,自然場景中的文字提取技術研究成果可以應用到智能城市交通系統、盲人視覺輔助系統、無人駕駛技術和工業自動化系統等領域。與傳統的光學字符提取技術不同,自然場景中包含了豐富的場景信息,自然場景中的文字面臨著字體多變、背景復雜、圖像質量低等諸多難點,有效提高場景文字提取的準確率具有重要的實際應用價值。
場景文本是指存在于任意場景下的文本內容,例如道路路牌、廣告牌、商場指示牌、商品包裝等;其目的是對自然圖像中每個文本實例的區域或包圍框進行定位;它的發展歷程與絕大多數的計算機視覺任務相似;在深度學習方法尚未占據主導地位之前,文本檢測主要是以手動提取特征為主;傳統的檢測方法包括基于連通域的方法和基于滑動窗口的方法。
但是這兩種方法存在如下不足:(1)基于連通域的方法大量依賴文本連通區域的檢測結果,然而,在自然場景中,由于光照變化、褪色、噪聲干擾等因素,圖像處理往往十分復雜,很難從中準確地檢測出文本連通區域,進而穩定地檢測自然場景文本;(2)基于滑動窗口的方法通常是基于單個字符的分類器,將滑動窗口作用于候選框,當場景很復雜時,比如受光照、陰影、遮擋等自然條件影響下,導致字符分類穩定性會變差,進而使檢測結果降低;隨著深度學習的發展,場景文本檢測也進入了一個新階段,涌現了大量基于深度學習的方法;基于深度學習的方法使用效果更加穩定的高層語義特征,利用更多的數據去擬合更復雜、泛化能力更強的模型;其研究方法主要包含:基于回歸的方法和基于分割的方法;但是這兩種方法在面對大小差異較大的文本時,由于特征圖的感受域是固定的,所以檢測的精確度較低。
發明內容
本公開為了解決上述問題,提出了一種基于多尺度特征金字塔的場景文本檢測方法及系統,本公開用特征金字塔網絡作為骨干網,在骨干網中加入用空洞卷積調節感受野的多尺度模塊,以此來提高檢測大小差異較大文本的精確度。
為了實現上述目的,本發明是通過如下的技術方案來實現:
第一方面,本公開提供了一種基于多尺度特征金字塔的場景文本檢測方法,包括:
輸入圖像,對圖像的場景文本進行標注;獲取文本位置標定好的數據集,將數據集分為訓練集和測試集;
采用特征金字塔網絡,對訓練集進行自上而下的特征提取,同時,在特征金字塔網絡的C2層對訓練集進行不同尺度的特征提取;
采用特征融合網絡,對自上而下特征提取的輸出特征在C2層與不同尺度特征提取的輸出特征進行融合,得到融合后的特征圖;將融合后的特征圖與特征金字塔網絡其他層的支路輸出的特征融合映射,得到訓練模型;
用測試集驗證模型的有效性;利用測試后的模型對圖像的場景文本進行檢測。
進一步的,每個圖像都有屬于自己的標注txt文件;單個圖像中,標注文件每一行代表一個文本目標,前八個數字為矩形文本框四個頂點的坐標信息,最后一列是文本的字符內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110789784.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種藥品封裝生產用自動進料裝置
- 下一篇:一種假彩色激光雷達系統





