[發明專利]一種任意方向自然場景文本識別方法有效
| 申請號: | 202010017936.0 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111242113B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 景小榮;朱莉 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V10/22 | 分類號: | G06V10/22;G06V30/148;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 任意 方向 自然 場景 文本 識別 方法 | ||
1.一種任意方向自然場景文本識別方法,其特征在于:包括以下步驟:
S1:首先使用高分辨分割網絡HRNet作為基礎框架提取文本的空間信息;
S2:然后使用卷積長短時記憶ConvLSTM模型提取文本的時空序列信息;步驟S2中所述的ConvLSTM,是將長短時記憶LSTM中的狀態轉換層換為卷積層,所述LSTM的原理如下:LSTM有三個門,分別為遺忘門ft、記憶門it和輸出門ot,LSTM中的門是一種讓信息選擇性通過的方法,由sigmoid激活函數跟元素點乘操作組成,sigmoid函數輸出[0,1]之間的數,代表信息保留的比率,其中數值1代表信息全部保留,而0表示無信息保留;
所述LSTM中遺忘門、記憶門和輸出門的原理如下:
所述遺忘門的作用是選擇性的舍棄上一個單元狀態ct-1的信息,即使用sigmoid激活函數作用于上一個隱藏層狀態ht-1,輸入狀態xt,其計算公式如式(1)所示:
ft=σ(wf·[ht-1,xt]+bf) (1)
所述記憶門的作用是選擇性的保留臨時狀態的信息,其計算公式如式(2),與式(1)一樣,仍使用sigmoid激活函數作用于ht-1,xt,其中如式(3)所示,其使用激活函數tanh將輸入ht-1,xt轉換成[-1,1]之間的值;
it=σ(wi·[ht-1,xt]+bi) (2)
將遺忘門跟記憶門作用的結果相加,得到下一個細胞狀態ct,計算公式如式(4)所示:
所述輸出門的作用是決定網絡最終的輸出狀態;輸出門ot的計算公式如式(5),和式(1)、式(2)一樣,使用sigmoid激活函數作用于ht-1,xt;對由式(4)得到的ct使用tanh進行歸一化處理后再與輸出門結果ot做元素點乘操作以得到網絡最終的輸出狀態ht,如式(6)所示:
ot=σ(wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(ct) (6)
上述各式中系數wf,wc,wi,wo及bf,bi,bc,bo均為需要網絡學習的權重參數,'·'代表矩陣乘法,等價于全連接操作;'*'代表元素點乘,等價于卷積操作;
所述將LSTM中的狀態轉換層換為卷積層,計算公式如式(7)~(12),所述ConvLSTM與LSTM的區別在于所有的全連接'·'操作換成卷積操作'*';
ft=σ(wf*[ht-1,xt]+bf) (7)
it=σ(wi*[ht-1,xt]+bi) (8)
ot=σ(wo*[ht-1,xt]+bo) (11)
ht=ot*tanh(ct) (12)
S3:通過設計字符注意機制使得模型的注意力在字符上,并使用可微分二值化函數進一步加大網絡對前景的注意力,而削弱對背景區域的關注;步驟S3中所述字符注意機制,具體包括:
將字符掩模模塊加在每個ConvLSTM的后面,所述字符掩模模塊按照式(13)設計:
其中Fi、Fo分別代表輸入和輸出特征;代表對字符掩模模塊的輸出特征p進行近似二值化,其中k代表二值化的程度;分別代表元素相加和元素相乘;
字符掩模模塊包括二層卷積和一個二分類的softmax函數,字符掩模模塊的輸出特征p中所有元素都取0-1之間的概率值;對輸出特征p中的所有元素使用可微分近似二值化函數;
S4:網絡對每個像素點進行37分類,將分類結果按照從左到右的順序轉換成文本;所述37分類為:網絡分類的類別數為37,包括10個阿拉伯數字,26的英文字母,一個背景。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010017936.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文件傳輸方法、系統及發送端設備、接收端設備
- 下一篇:電連接器





