[發(fā)明專利]一種基于多尺度特征提取的文本識別方法有效
| 申請?zhí)枺?/td> | 202110003584.8 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112836702B | 公開(公告)日: | 2022-10-18 |
| 發(fā)明(設計)人: | 卜佳俊;鄧雅卿;顧靜軍 | 申請(專利權(quán))人: | 浙江大學 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V10/26;G06V10/74;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 尺度 特征 提取 文本 識別 方法 | ||
一種基于多尺度特征提取的文本識別方法,包括:1)獲取可用于訓練的大型文本圖像數(shù)據(jù)集,其中包含文本圖片及其對應的文本標簽;2)對數(shù)據(jù)集中的圖片進行訓練集和驗證集的劃分,在文本識別模型上進行多次訓練得到最優(yōu)模型;3)對步驟2)中定義的文本識別模型,選用CTC損失函數(shù)進行訓練;4)將以上步驟訓練的模型應用到文本圖像識別場景中,對文本圖像的內(nèi)容進行識別。相較于現(xiàn)有的主流文本識別模型CRNN,本發(fā)明能夠在充分利用多尺度信息提升文本識別準確度的基礎上,降低模型的參數(shù)量,以更小的開銷獲得更準確的識別結(jié)果。
技術領域
本發(fā)明主要針對自然場景下的文本識別技術領域,尤其涉及基于多尺度特征提取的文本識別方法。
背景技術
隨著信息技術的不斷發(fā)展,計算機已然成為了信息傳遞的一種重要媒介,因此將圖像中的文字轉(zhuǎn)換為計算機可進行處理的格式有利于人們對信息的理解、加工和傳遞。許多視覺領域內(nèi)和文本相關的任務,如圖像檢索、智能無障礙輔助設施等都需要以精確的文本識別結(jié)果進行構(gòu)建。OCR(Optical Character Recognition,光學字符識別)就是將視覺文字轉(zhuǎn)化為計算機文本格式的技術,其中又主要分為文本檢測和文本識別兩個任務。文本檢測主要用于定位圖像中的文字區(qū)域,而文本識別則對裁剪后的文字區(qū)域進行文本內(nèi)容提取,最終得到計算機可進行處理的文本格式。
目前有許多基于深度學習的文本識別模型用于解決文本識別問題,其中CRNN模型是一種主流的文本識別模型,因其模型較小,訓練速度快,識別效果好仍是當前最廣泛使用的文本識別模型之一。但是為了加快訓練速度,每次讀取多張圖片進行訓練,需要將每張圖片都縮放到相同的大小,但是這種縮放對于圖片的拉伸和壓縮處理都難以避免會造成圖片的變形,而導致圖片上信息分布的不一致,從而對卷積模板區(qū)域內(nèi)的特征提取過程造成影響,最終會影響文本識別模型的準確度。
發(fā)明內(nèi)容
本發(fā)明要克服現(xiàn)有技術的上述缺點,提出了一種基于多尺度特征提取的文本識別方法,并且對CRNN的網(wǎng)絡層數(shù)進行改進,以更小的模型開銷提高文本識別模型的準確度。
一種基于多尺度特征提取的文本識別方法,包括以下步驟:
1)獲取可用于訓練的大型文本圖像數(shù)據(jù)集,其中包含文本圖片及其對應的文本標簽。文本圖片表示僅含文本內(nèi)容的圖片,可以通過已有的其它文本檢測模型定位文本內(nèi)容,再進行裁剪得到。
2)對數(shù)據(jù)集中的圖片進行訓練集和驗證集的劃分,在文本識別模型上進行多次訓練得到最優(yōu)模型。所述的文本識別模型,其具體網(wǎng)絡結(jié)構(gòu)描述如下:
21)首先定義網(wǎng)絡結(jié)構(gòu)中的多尺度特征提取基本塊。基本塊的整體組織結(jié)構(gòu)如說明書附圖內(nèi)的圖2所示。其對應的詳細參數(shù)描述如下:對應圖2中的模塊①選用大小為1的卷積核,設置步長為1,填充為0,輸出維度為64;模塊②選用大小為1的卷積核,設置步長為1,填充為0,輸出維度為48;模塊③選用大小為5的卷積核,設置步長為1,填充為2,輸出維度為64;模塊④選用大小為3的卷積核,設置步長為1,填充為1,輸出維度為64;模塊⑤和模塊⑥選用大小為3的卷積核,設置步長為1,填充為1,輸出維度為96;模塊⑦設定為范圍卷積核為3的池化層,設置步長為1,填充為1;模塊⑧選用大小為1的卷積核,設置步長為1,填充為1,輸出是多尺度特征提取基本塊的一個輸入?yún)?shù);模塊⑨選用大小為3的卷積核,設置步長為1,填充為0,輸出是多尺度特征提取基本塊的輸入?yún)?shù);對模塊①、③、⑥、⑧的輸出,在特征維度上進行拼接得到高維的語義特征,最后通過模塊⑨得到最終的輸出。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110003584.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





