[發明專利]一種基于魯棒性表征學習的場景文本識別方法有效
| 申請號: | 202110625864.2 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113343707B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 明悅;范春曉;孫娟娟;鄧冠玉;鄧茜 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06V30/18;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 魯棒性 表征 學習 場景 文本 識別 方法 | ||
本發明提供了一種基于魯棒性表征學習的場景文本識別方法。該方法包括:將待識別的圖像輸入文本矯正網絡,得到矯正圖像;將矯正圖像輸入編碼器,編碼器利用坐標編碼模塊提取圖像的空間紋理信息,利用上下文建模網絡提取文本的語義建模特征,輸出文本的語義建模特征給全局語義提取模塊和解碼器;全局語義提取模塊對輸入的文本的語義建模特征進行文本語義表征提取并輸出給解碼器;解碼器根據接收的全局語義信息和文本的語義建模特征利用注意力機制進行串行分類預測,輸出待識別的圖像的文本識別結果。本發明通過文本表征網絡和表征學習機制優化文本表征的提取和分布,有效提升文本識別中對于復雜背景干擾、多種字體風格與文本排布的魯棒性。
技術領域
本發明涉及圖像識別技術領域,尤其涉及一種基于魯棒性表征學習的場景文本識別方法。
背景技術
場景文本識別(Scene TextRecognition,STR)是計算機視覺中的熱門領域,皆在解決圖像中的文本識別問題。隨著深度學習技術和硬件水平的發展,文本識別技術得到了顯著進步,在簡單場景中的準確度已達可用的水準。而自然場景中的文本可能具有非水平的排布,如傾斜、豎直、彎曲、透視等形式,且拍攝角度也會引起文本行排布的形變。不規則文本在自然場景中的頻繁出現,對系統的檢測和識別性能提出了挑戰,需要研究者合理設計算法以應對任意排布的文本。近年來已出現大量的研究,專注于解決不規則文本的檢測和識別問題。然而這些方法的性能尚未達到實用的程度,仍有如下的問題難以解決。
文本識別技術能夠提高日常生活工作的生產效率,有重要的實用價值。然而現有方法仍難以解決特定的問題,遠達不到實用的程度。為了推動識別技術的發展,提高生產力水平,需要對上述問題進行深入研究,提出合理的解決方案。
場景文本識別的目標是識別圖像中的文本,是理解圖像的前提。文本識別模型的輸入為裁剪過的文本圖像,可以通過文本檢測步驟得到。在場景文本識別中,一方面的挑戰來自于復雜場景的干擾,如光照遮擋、成像質量差和背景噪聲等;另一方面的挑戰是文本外觀的多樣性,如豐富的字體種類、不規則的文本排布等。
傳統的場景文本識別解決方案通常為基于字符識別的方法和整詞識別方法。基于字符識別的方法需要實現字符的分割與分類,識別準確率受分割結果的影響較大,而且需要字符標注作為監督,訓練成本高。整詞識別方法直接預測單詞類別,但會面臨詞典過大和計算耗時高的問題,阻礙了傳統方法的推廣。
近年來的文本識別方法使用深度學習技術實現,取得了巨大的突破。為了避免字符分割問題,現有的方法通常把文本識別看作是序列識別任務:首先將輸入圖像的深度特征序列化,然后通過設計算法完成特征序列與標簽序列的對齊,得到識別結果。鏈接時序分類(Connectionist Temporal Classification,CTC)和注意力機制(AttentionMechanism)能將輸入序列轉換為另一個序列,可實現任意長度的序列對齊,在語音識別、自然語言處理等序列識別的任務上得到了廣泛運用。于是,近年來的文本識別方法多數采用CTC或者注意力機制來實現。
為了應對場景文本的排布多樣性,識別彎曲、形變的文本行,近年來的研究者設計了不規則文本矯正算法,用于把非水平文本行矯正為接近水平的排布,將復雜的問題轉換為更容易解決的規則文本識別問題。因此,基于矯正的文本識別算法在典型的文本識別網絡的基礎上,增加了文本矯正算法模塊:先矯正輸入的不規則文本行,得到規則的文本行后再進行文本識別。
可以將近年的文本識別方法粗略地分為如下三類:(1)基于鏈接時序分類的方法(CTC-based method);(2)基于注意力機制的方法(Attention-based method);(3)基于矯正的方法(Rectification-basedmethod)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110625864.2/2.html,轉載請聲明來源鉆瓜專利網。





