[發明專利]基于圖像字符區域感知的端到端文本檢測及識別方法在審
| 申請號: | 202011431114.3 | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112541491A | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 杜權;劉興宇;徐萍 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽優普達知識產權代理事務所(特殊普通合伙) 21234 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖像 字符 區域 感知 端到端 文本 檢測 識別 方法 | ||
本發明公開一種基于圖像字符區域感知的端到端文本檢測識別方法,步驟為:數據準備:在兩種數據集上進行實驗,一種是包含單個字符包圍框標注的SynthText80k;另一種是真實場景數據集,包含ICDAR 2015,CTW1500;在上述兩種數據集上進行特征提取和融合,得到語義更豐富特征;將兩種數據集中圖像部分進行分割,找到圖像中文本的位置;利用圖像中文本的位置,得到每一個字符位置對應的特征;根據字符特征進行卷積識別,對每一個特征識別分類后,得到識別概率完成神經網絡端到端訓練策略,實現神經網絡弱監督學習的識別反饋。本發明可以檢測任意形狀的文本,識別多方向的文字,實現識別反饋的端到端文本檢測和識別。
技術領域
本發明涉及一種計算機視覺技術領域,具體為一種基于圖像字符區域感知的端到端文本檢測及識別方法。
背景技術
OCR是計算機視覺領域的經典問題,長久以來,一直受到學術界和工業界的持續關注。在工業界,Google、Microsoft、Amazon等大型互聯網公司以及云從科技等人工智能創業公司,都在OCR技術上耕耘多年。
OCR(Optical Character Recognition,光學字符識別)是指對輸入圖像進行分析識別處理,獲取圖像中文字信息的過程,具有廣泛的應用場景。而自然場景中的OCR技術不需要針對特殊場景進行定制,可以識別任意場景圖片中的文字。
但相較于傳統OCR,自然場景OCR中的各種商品、布景或自然場景圖片中的文本檢測與識別面臨著復雜背景干擾、文字的模糊與退化、不可預測的光照、字體的多樣性、垂直文本、傾斜文本等眾多挑戰。
自然圖像文本識別一直被認為是兩個連續但獨立的問題:文字檢測和文字識別。由于深度神經網絡的成功,這兩個人物都取得了很大的進展。文字識別的目標是從被摳出來的文本圖片中識別出一連串字符。一般來說,文字識別被轉換為一個序列標記問題通常由卷積神經網絡特征的遞歸神經網絡來解決。然而,通過這樣兩階段的方法實現文本識別通常由很多限制。首先獨立的學習這兩個任務是一個次優的問題,因為這樣很難完全利用文本本身的性質。比如說,聯合的文字檢測和識別可以提供豐富的上下文信息并且兩個任務可以實現互補。其次兩階段的方法通常需要多個連續的步驟,這樣使整個系統更復雜,并且使得識別結果很大程度上依賴于檢測性能的好壞。
最近已經有一些方法嘗試去開發一個統一的文字檢測與識別框架(也叫端到端識別),但它們的模型非常的復雜,在文字檢測階段很難精確的識別出精確文本區域。通常會有很多的背景包含在扣除來的特征中。這樣不可避免的限制了文字識別的性能,尤其對于多方向或者彎曲的文本。
發明內容
針對現有技術中自然圖像文本識別在文字檢測階段很難精確的識別出精確文本區域等不足,本發明要解決的問題是提供一種可提升檢測和識別的準確度的基于圖像字符區域感知的端到端文本檢測及識別方法。
為解決上述技術問題,本發明采用的技術方案是:
本發明提供一種基于圖像字符區域感知的端到端文本檢測識別方法,包括以下步驟:
1)數據準備:在兩種數據集上進行實驗,一種是包含單個字符包圍框標注的SynthText80k;另一種是真實場景數據集,包含ICDAR 2015,CTW1500;
2)在上述兩種數據集上進行特征提取和融合,得到語義更豐富特征;
3)將兩種數據集中圖像部分進行分割,找到圖像中文本的位置;
4)利用步驟3)中圖像中文本的位置,得到每一個字符位置對應的特征;
5)根據字符特征進行卷積識別,對每一個特征識別分類后,得到識別概率n表示每一個Text Box里面包含的字符的個數;
6)完成神經網絡端到端訓練策略,實現神經網絡弱監督學習的識別反饋。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011431114.3/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





