[發(fā)明專利]一種基于顯性矯正機制的不規(guī)則場景文字識別方法在審
| 申請?zhí)枺?/td> | 201910977102.1 | 申請日: | 2019-10-15 |
| 公開(公告)號: | CN110796138A | 公開(公告)日: | 2020-02-14 |
| 發(fā)明(設(shè)計)人: | 王春枝;李敏;葉志偉;嚴(yán)靈毓;夏慧玲;袁野;盛夢涵;卞文碩 | 申請(專利權(quán))人: | 湖北工業(yè)大學(xué) |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32 |
| 代理公司: | 42222 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人: | 王琪 |
| 地址: | 430068 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 矯正 不規(guī)則 文字識別 場景 圖像 輸出識別 準(zhǔn)確率 圖片 網(wǎng)絡(luò) 傳遞 | ||
1.一種基于顯性矯正機制的不規(guī)則場景文字識別方法,其特征在于,包含如下步驟:
步驟S100,輸入待識別圖像;
步驟S200,利用矯正網(wǎng)絡(luò)對待識別圖像中的不規(guī)則場景文字進行矯正,得到矯正后產(chǎn)生的新圖像;
所述矯正網(wǎng)絡(luò)是利用TPS參數(shù)對圖像進行變換,由控制點定位網(wǎng)絡(luò)、采樣網(wǎng)格產(chǎn)生器和采樣器組成;
步驟S300,將矯正后的新圖像作為輸入傳遞到識別網(wǎng)絡(luò),對該圖像中的文字進行識別;
所述識別網(wǎng)絡(luò)是一個端到端的卷積神經(jīng)網(wǎng)絡(luò),從矯正后的新圖像中識別字符序列,由編碼器、解碼器組成,其中編碼器包括卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM網(wǎng)絡(luò),用于生成矯正后新圖像的特征序列,解碼器用于將編碼器產(chǎn)生的特征序列翻譯成字符序列;
步驟S400,輸出識別內(nèi)容。
2.根據(jù)權(quán)利要求1所述的一種基于顯性矯正機制的不規(guī)則場景文字識別方法,其特征在于:所述步驟S200包括如下子步驟,
步驟S210,對輸入的待識別圖像I進行縮放,得到64×256尺寸的圖像;
步驟S220,對縮放后的圖像進行降采樣得到32×64尺寸的圖像Id,通過控制點定位網(wǎng)絡(luò)獲得輸出圖像上控制點C;
其中,控制點網(wǎng)絡(luò)由若干卷積網(wǎng)絡(luò)層和最大池化層組成,網(wǎng)絡(luò)的輸出層是一個輸出2K個節(jié)點的全連接層,輸出一個2K維度的向量,K是控制點的個數(shù),輸出的向量被變形為2×K形狀的矩陣,從而得到C,C={c1,c2,…,cK}∈R2×K是對K個控制點坐標(biāo)向量的拼接,C中的值表示的是歸一化后的控制點坐標(biāo),其中cK={xK,yK}T是第K個控制點的x,y坐標(biāo),(0,0)對應(yīng)圖像的左上角,(1,1)對應(yīng)圖像的右下角;
步驟S230,采樣網(wǎng)格產(chǎn)生器根據(jù)輸出圖像上的控制點C計算TPS變換參數(shù),進而獲得控制點C在輸入圖像上對應(yīng)的控制點C',并產(chǎn)生輸入圖像上的采樣點位置;
一個二維的TPS變換由一個2×(K+3)的矩陣參數(shù)化表示,即:
其中,u,v∈R1×K,a0,a1,a2,b0,b1,b2均為矩陣元素;TPS的參數(shù)通過求解K個帶邊界條件的線性方程組得到:
其中,φ(r)=r2log(r)是徑向基函數(shù)核,r是ci到控制點ck的歐氏距離;
這K個方程組表示TPS將C中的每個控制點分別映射到C'的每個點上,邊界條件為:
0=u1
0=v1
此處的Cx和Cy分別是C的x和y坐標(biāo)組成的向量;
將方程組和邊界條件結(jié)合到一起得到以下的等式
TΔc=[C' 02×3]
其中
是由組成的方塊矩陣;
由上述等式得T的閉式解:
其中C為常量,由于和Δc的值只依賴于C,因此它們也是只需要一次計算的常量;
給定一個輸出圖像上的任意采樣點P=(xp,yp)T,TPS通過對P的升維向量進行線性投影得到變換后的采樣坐標(biāo)點P',即P在輸入圖像上的對應(yīng)的采樣點位置:
其中φ(r)=r2log(r)是徑向量函數(shù)核,r是P到控制點ck的歐氏距離;
步驟S240,采樣器根據(jù)輸入的待識別圖像I和采樣點位置進行采樣,得到矯正后的圖像Ir。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北工業(yè)大學(xué),未經(jīng)湖北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910977102.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





