[發明專利]基于字符分割的多方向自然場景文本檢測方法有效
| 申請號: | 202010579227.1 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111753714B | 公開(公告)日: | 2023-09-01 |
| 發明(設計)人: | 劉姝;鄒北驥;楊文君;姜靈子 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/148;G06V30/19;G06V10/82;G06N3/0464;G06N3/0442;G06N3/049 |
| 代理公司: | 長沙永星專利商標事務所(普通合伙) 43001 | 代理人: | 周詠;米中業 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 字符 分割 多方 自然 場景 文本 檢測 方法 | ||
本發明公開了一種基于字符分割的多方向自然場景文本檢測方法,包括獲取訓練數據集并標定;建立基于字符分割的多方向自然場景文本檢測初步模型;用標定的訓練數據對基于字符分割的多方向自然場景文本檢測初步模型進行訓練得到基于字符分割的多方向自然場景文本檢測模型;采用基于字符分割的多方向自然場景文本檢測模型對自然場景的文本進行檢測。本發明采用基于實例分割的方法分割文字字符實例,因此可以不必考慮文字的排列方向;同時,本方法結合了雙向長短期記憶網絡提取字符的上下文信息,預測字符之間的親和度,從而可以更準確地將字符組合為文本行;因此,本發明方法可靠性高、實用性好且準確率較高。
技術領域
本發明屬于圖像處理領域,具體涉及一種基于字符分割的多方向自然場景文本檢測方法。
背景技術
隨著經濟技術的發展,自然場景的文本檢測也開始逐步應用于人們的生產和生活,在無人駕駛、文檔管理、視覺輔助等領域發揮了巨大的作用。
然而,從自然場景圖像中定位文字區域是一項具有挑戰性的任務。場景中的文字常常表現出不同的尺度,完整性和緊密性等特征,并且通常以隨機方向排列,如水平,垂直和傾斜等,導致常規算法在檢測文字的同時還需要考慮其排列方向。
日趨流行的深度學習技術已經引入到自然場景多方向文本檢測研究中,并且獲得了較好的性能。這些方法大致可以分為以下三類:第一類是基于錨點框回歸的方法,研究者們通過手工設計的多尺度錨點框以回歸多方向排列的場景文字。此類方法能夠有效地解決單詞間隔較長以及圖像對比度低的問題,缺點是大量的手工設計是不可避免的。第二類是基于實例分割的方法,即檢測多方向的文字時,直接提取文字字符實例而不用考慮其排列方向,從而快速準確地提取圖像中的文字。第三類是無法劃分至前兩類的其它方法,如筆劃寬度轉換算法、骨架提取算法、最大極值區域算法等,均取得了不錯的文本檢測性能。
目前,基于實例分割的方法由于無需考慮文字字符的排列方向,因此受到大多數研究者們的青睞。然而,基于實例分割的方法不能很好地區分不同的文字實例,即可能會將多個彼此非常接近的文字實例誤認為同一個文字實例。
發明內容
本發明的目的在于提供一種能夠解決多方向排列文字檢測和文字實例誤分問題,而且可靠性高、實用性好、準確率較高的基于字符分割的多方向自然場景文本檢測方法。
本發明提供的這種解決多方向排列文字檢測和文字實例誤分的問題,包括如下步驟:
S1.獲取訓練數據集,并對訓練數據集進行標定;
S2.建立基于字符分割的多方向自然場景文本檢測初步模型;所述基于字符分割的多方向自然場景文本檢測初步模型為金字塔網絡框架+雙向長短期記憶網絡的檢測模型;
S3.用步驟S1標定的訓練數據對步驟S2建立的基于字符分割的多方向自然場景文本檢測初步模型進行訓練,從而得到基于字符分割的多方向自然場景文本檢測模型;
S4.采用步驟S3得到的基于字符分割的多方向自然場景文本檢測模型,對自然場景的文本進行檢測。
步驟S1所述的獲取訓練數據集,并對訓練數據集進行標定,具體為在公共數據集ICDAR2013與ICDAR2015上進行標定;標定字符和字符間的親和度;在各字符中心的中點為字符間親和度的中點,寬高分別為兩字符寬高之和的一半。
步驟S2所述的基于字符分割的多方向自然場景文本檢測初步模型為金字塔網絡框架+雙向長短期記憶網絡的檢測模型,具體為金字塔網絡框架的第一階段到第五階段的卷積層均采用ResNet50網絡,在每一個階段均設置一個上采樣操作;同時在金字塔網絡后,再連接一個雙向長短期記憶網絡。
步驟S3所述的用步驟S1標定的訓練數據對步驟S2建立的基于字符分割的多方向自然場景文本檢測初步模型進行訓練,從而得到基于字符分割的多方向自然場景文本檢測模型,具體為采用如下步驟進行訓練并得到檢測模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010579227.1/2.html,轉載請聲明來源鉆瓜專利網。





