[發明專利]基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用在審
| 申請號: | 202211078512.0 | 申請日: | 2022-09-05 |
| 公開(公告)號: | CN115393879A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 汪增福;姜飛 | 申請(專利權)人: | 中國科學院合肥物質科學研究院 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06N3/04;G06N3/08;G06V10/764;G06V10/774;G06V10/82;G06V30/413 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 傅里葉 級數 編碼 任意 形狀 文本 檢測 矯正 方法 應用 | ||
本發明公開了一種基于傅里葉級數編碼的任意形狀文本檢測與矯正方法及應用,其步驟包括:1構建訓練數據集,包括數據的獲取以及預處理;2構建任意形狀文本檢測網絡,訓練網絡,調整參數,得到最優的任意形狀文本檢測網絡,具體采用以ResNet50為基礎的神經網絡架構,整個網絡包括特征提取器、編碼器以及解碼器;3檢測結果后處理,具體采用雙線性插值矯正處理。本發明能用于對自然場景圖片中任意形狀文本的高精度檢測和形狀矯正,從而能提高圖片中任意形狀文本的識別精度。
技術領域
本發明涉及圖文檢測與矯正領域的相關問題,具體涉及一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用。
背景技術
在我們的日常生活中存在著大量的包含文字信息的圖片,這些圖片是我們信息交流和感知世界的重要載體。圖文檢測是我們理解這些圖片中文字內容的先決條件,但是由于圖片中文字區域的尺寸、文字的形狀以及背景因素的影響,場景文本的檢測充滿了挑戰,尤其是任意形狀文本的檢測,這里的任意形狀文本包括彎曲的、傾斜的、細長的文本。
深度學習方法可以將復雜的計算過程交給神經網絡進行學習,直接由輸入圖像產生相應的輸出結果。此種端到端的學習方法具有學習成本低,性能表現優異。隨著深度學習技術的發展,目前基于深度學習技術的任意形狀文本檢測網絡主要分為兩大類,一類是分割的方法,另一類是回歸的方法。分割的方法是對圖像中的像素進行分類,得到文本的區域,進而得到文本的邊界,但是這種方法需要消耗大量的計算資源,同時對于一些鄰近的文本不能很好地分開。回歸的方法是對文本的邊界進行編碼,讓神經網絡對編碼的的參數進行學習,然后解碼出相應的文本邊界,這種方法雖然簡單易于訓練,但是受編碼方式的影響,對彎曲程度比較大的文本檢測效果不好。
發明內容
本發明是為了解決上述現有技術存在的不足之處,提出一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用,以期能用于對自然場景圖片中任意形狀文本的高精度檢測和形狀矯正,從而能提高圖片中任意形狀文本的識別精度。
本發明為達到上述發明目的,采用如下技術方案:
本發明一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法的特點在于,包括以下步驟:
步驟1:構建訓練數據集,包括數據的獲取以及預處理:
步驟1.1:獲取文本圖像數據集記為I={I1,I2,...,Ip,...,Iu},Ip表示文本圖像數據集I中第p張文本圖像,u表示文本圖像數據集I中文本圖像的總數目;
步驟1.2:提取第p張文本圖像Ip中的文本區域,得到相對應的文本區域邊界點集合記為并形成文本區域邊界,其中,表示第p張文本圖像Ip中文本區域的第q個邊界點坐標,l表示文本區域的邊界點數目;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院合肥物質科學研究院,未經中國科學院合肥物質科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211078512.0/2.html,轉載請聲明來源鉆瓜專利網。





