[發明專利]一種基于顯性矯正機制的不規則場景文字識別方法在審
| 申請號: | 201910977102.1 | 申請日: | 2019-10-15 |
| 公開(公告)號: | CN110796138A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 王春枝;李敏;葉志偉;嚴靈毓;夏慧玲;袁野;盛夢涵;卞文碩 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32 |
| 代理公司: | 42222 武漢科皓知識產權代理事務所(特殊普通合伙) | 代理人: | 王琪 |
| 地址: | 430068 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 矯正 不規則 文字識別 場景 圖像 輸出識別 準確率 圖片 網絡 傳遞 | ||
本發明公開了一種基于顯性矯正機制的不規則場景文字識別方法,包括:步驟S100輸入待識別圖像;步驟S200利用矯正網絡對待識別圖像中的不規則場景文字進行矯正,得到矯正后產生的新圖片;步驟S300將矯正后的圖片作為輸入傳遞到識別網絡,對該圖片中的文字進行識別;步驟S400輸出識別內容。本發明對于解決不規則場景文字識別的問題,具有易實現、效率高且識別準確率高的特點。
技術領域
本發明屬于數字圖像處理的應用領域,具體涉及一種基于顯性矯正機制的不規則場景文字識別方法。
背景技術
場景文字識別是從裁剪后的文字圖片中識別出字母序列的過程,它既可以單獨用于實際,也可以和文字檢測器組成端到端的識別系統。場景文字識別是一項有挑戰性的問題。除了背景嘈雜、光照變化等自然圖片共有的復雜性外,識別輸出空間的復雜也給問題造成了困難:文字由數量不固定的字母組成,因此,和一般的圖像分類問題不同,場景文字識別是從圖片中識別長度不固定的序列的問題。
不規則場景文字是指非水平方向排布的文字。如圖1所示,典型的不規則文字包括側視文字(perspective text)、曲形文字等。它們通常由藝術風格的采用或非水平視角拍攝導致。以往的方法在設計上沒有針對不規則文字的設計,不能有效地識別不規則文字。然而,不規則文字在場景中十分普遍,也因此給識別造成了顯著的困難。
不規則場景文字識別問題最早被Phan等人系統研究,作者提出了一套能有效識別側視文字的識別方法。然而,該方法基于手工設計特征匹配,其準確度在復雜背景和光照下容易降低,因此總體的識別正確率偏低。最近,Yang等人在他們提出的文字識別網絡中增加了輔助的字符定位模塊以及相應的字符對齊損失函數,通過字符定位和識別來應對不規則的字母排布。本發明提供一種易于實現且效率明顯提高的不規則場景文字識別方法,對于給定的輸入圖片,對其進行自適應的變形并產生一張新的圖片。矯正后的圖片和原圖有著相同的文字內容,但文字由不規則變為規則,也因此更利于識別器識別。
發明內容
本發明為了解決上述技術問題,提出了一種基于顯性矯正機制的不規則場景文字識別方法,能明顯提高不規則場景文字的識別率。
本發明所采用的技術方案是:一種基于顯性矯正機制的不規則場景文字識別方法,該方法利用矯正網絡對不規則場景文字進行矯正,進而提高對其的識別能力,該識別方法主要包含如下步驟。
步驟S100,輸入待識別圖像;
步驟S200,利用矯正網絡對待識別圖像中的不規則場景文字進行矯正,得到矯正后產生的新圖像;
所述矯正網絡是利用TPS參數對圖像進行變換,由控制點定位網絡、采樣網格產生器和采樣器組成;
步驟S300,將矯正后的新圖像作為輸入傳遞到識別網絡,對該圖像中的文字進行識別;
所述識別網絡是一個端到端的卷積神經網絡,從矯正后的新圖像中識別字符序列,由編碼器、解碼器組成,其中編碼器包括卷積神經網絡和雙向LSTM網絡,用于生成矯正后新圖像的特征序列,解碼器用于將編碼器產生的特征序列翻譯成字符序列;
步驟S400,輸出識別內容。
進一步的,所述步驟S200包括如下子步驟,
步驟S210,對輸入的待識別圖像I進行縮放,得到64×256尺寸的圖像;
步驟S220,對縮放后的圖像進行降采樣得到32×64尺寸的圖像Id,通過控制點定位網絡獲得輸出圖像上控制點C;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910977102.1/2.html,轉載請聲明來源鉆瓜專利網。





