[發(fā)明專利]基于二維遞歸網(wǎng)絡的自然場景圖像中中文文本識別方法有效
| 申請?zhí)枺?/td> | 201810072730.0 | 申請日: | 2018-01-25 |
| 公開(公告)號: | CN108399419B | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設計)人: | 高學;劉衍平 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產(chǎn)權代理有限公司 44245 | 代理人: | 鄭浦娟 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 二維 遞歸 網(wǎng)絡 自然 場景 圖像 中文 文本 識別 方法 | ||
本發(fā)明公開了一種基于二維遞歸網(wǎng)絡的自然場景圖像中中文文本識別方法,首先獲取訓練樣本集,對深度卷積網(wǎng)絡、編碼用二維遞歸網(wǎng)絡、解碼用二維遞歸網(wǎng)絡以及CTC模型依次連接構成的神經(jīng)網(wǎng)絡進行訓練;將測試樣本輸入訓練后的深度卷積網(wǎng)絡中,獲取到測試樣本的特征圖;然后將測試樣本的特征圖輸入到訓練后的編碼用二維遞歸網(wǎng)絡中,得到測試樣本的編碼特征圖;再將測試樣本的編碼特征圖輸入訓練后的解碼用二維遞歸網(wǎng)絡中,得到測試樣本各幀圖像中每個常用漢字的概率結果;最后進行集束搜索處理,最終識別出測試樣本中整體中文文本。本發(fā)明方法充分利用了文本圖像的空間時間信息與上下文信息,能夠避免文本圖像預分割問題,提高了識別準確率。
技術領域
本發(fā)明屬于圖像文本分析與識別領域,具體涉及一種基于二維遞歸網(wǎng)絡的自然場景圖像中中文文本識別方法。
背景技術
人類大部分的信息都是通過視覺系統(tǒng)獲得的,通過視覺系統(tǒng)獲取的場景圖像除了包含色彩、圖案、形狀、位置、紋理等豐富的視覺信息,還包含了豐富的文本信息。文本對信息的描述有著準確性、有效性等特點,文本在各種計算機視覺應用中具有十分有用的價值。例如,在圖片搜索方面,識別圖片中的文字有利于我們更好地對圖片分類匹配;在無人駕駛方面,從自然場景中識別出交通指示牌以及其他標志李的文字信息可以輔助駕駛,自然場景下的文字識別在人工智能高速發(fā)展的今天,是一個不可或缺的重要發(fā)展部分。
自然場景中的文本圖像與傳統(tǒng)文檔圖像相比具有明顯的不同,在文本圖像的顏色、亮度、對比度、背景、形狀上兩者都有很大的差異,圖像中可能包括較強的噪聲干擾。傳統(tǒng)的文本識別方法已經(jīng)不再適應場景文本的復雜化、多樣化?,F(xiàn)有技術中自然場景中文本的檢測通常需要對圖像文本進行預分割處理,圖像的分割處理技術直接影響著自然場景中中文文字的檢測精度,并且當部分漢字的結構特征被分在不同特征序列時,將很難識別出來。
近年來利用深度學習網(wǎng)絡來解決這一挑戰(zhàn)顯得更加方便可行,并取得了顯著的效果。在深度學習中,基于卷積和一維遞歸網(wǎng)絡的文本識別方法成為目前的主流。但這類方法還是存在一定的缺陷,如圖像中文本的旋轉(zhuǎn)、透射等畸變需要通過大量的樣本訓練來增強網(wǎng)絡的識別能力,一維遞歸網(wǎng)絡識別時需要先將二維的特征圖轉(zhuǎn)為一維特征序列。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,提供一種基于二維遞歸網(wǎng)絡的自然場景圖像中中文文本識別方法,該方法克服了一維遞歸網(wǎng)絡在文本序列識別中輸入序列必須保證嚴格獨立性的假設,避免了采用一維遞歸網(wǎng)絡識別過程中進行的降維操作,在識別過程中充分利用了文本圖像的空間時間信息與上下文信息,并且能夠避免文本圖像預分割問題,大大提高了自然場景圖像中中文文本的識別準確率。
本發(fā)明的目的通過下述技術方案實現(xiàn):一種基于二維遞歸網(wǎng)絡的自然場景圖像中中文文本識別方法,步驟如下:
步驟S1、獲取多幅包括漢字的自然場景圖像樣本,構成訓練樣本集,其中訓練樣本集中包括了常用漢字字符集中的所有常用漢字;并且為每個常用漢字設置一個標簽;
同時獲取由深度卷積網(wǎng)絡、編碼用二維遞歸網(wǎng)絡、解碼用二維遞歸網(wǎng)絡以及CTC模型依次連接構成的神經(jīng)網(wǎng)絡,其中該神經(jīng)網(wǎng)絡的輸入即為深度卷積網(wǎng)絡的輸入,該神經(jīng)網(wǎng)絡的輸出即為CTC模型的輸出;
步驟S2、神經(jīng)網(wǎng)絡訓練:將訓練樣本集中的每個訓練樣本作為神經(jīng)網(wǎng)絡的輸入,將每個訓練樣本中各漢字的標簽作為神經(jīng)網(wǎng)絡的輸出,針對神經(jīng)網(wǎng)絡進行訓練得到訓練后的神經(jīng)網(wǎng)絡,從而得到訓練后的深度卷積網(wǎng)絡、訓練后的編碼用二維遞歸網(wǎng)絡和訓練后的解碼用二維遞歸網(wǎng)絡;
步驟S3、當獲取到測試樣本時,首先將測試樣本輸入到訓練后的深度卷積網(wǎng)絡中,通過訓練后的深度卷積網(wǎng)絡獲取到測試樣本的特征圖;
步驟S4、將訓練后深度卷積神經(jīng)網(wǎng)絡輸出的測試樣本的特征圖輸入到訓練后的編碼用二維遞歸網(wǎng)絡中,通過訓練后的編碼用二維遞歸網(wǎng)絡得到測試樣本的編碼特征圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810072730.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





