[發(fā)明專利]一種文本圖像增強模型、訓練方法、增強方法及電子設備在審
| 申請?zhí)枺?/td> | 202110403094.7 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113177556A | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設計)人: | 李霄鵬;田寶亮;胡亞龍;王巖;袁景偉;黃宇飛 | 申請(專利權)人: | 作業(yè)幫教育科技(北京)有限公司 |
| 主分類號: | G06K9/40 | 分類號: | G06K9/40;G06K9/42;G06K9/38;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京中聯(lián)智道知識產權代理事務所(普通合伙) 11963 | 代理人: | 熊蒙 |
| 地址: | 100085 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 圖像 增強 模型 訓練 方法 電子設備 | ||
本發(fā)明涉及圖像處理處理技術領域,公開了一種文本圖像增強模型、訓練方法、增強方法及電子設備,所述文本圖像增強模型包括生成器和判別器,通過生成器和判別器的對抗學習,將待處理的原始彩色文本圖像增強生成不含圖像噪聲、水印的二值化圖像。本發(fā)明的文本圖像增強模型通過生成器和判別器的對抗學習,將待處理的原始彩色文本圖像增強生成不含圖像噪聲、水印的二值化圖像,實現(xiàn)了對原始彩色文本圖像的去除圖像噪聲、水印等干擾及圖像二值化的同時處理,提升讀者觀感,而且具有更好的圖像處理效果,魯棒性高。同時,通過采用本發(fā)明的文本圖像增強模型處理過的原始彩色文本圖像,更加突出文本區(qū)域,可極大的提升OCR的檢測和識別準確率。
技術領域
本發(fā)明涉及圖像處理技術領域,具體的涉及一種文本圖像增強模型、訓練方法、增強方法及電子設備。
背景技術
OCR---Optical Character Recognition,光學字符識別,是指電子設備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。
OCR的檢測和識別的準確率和輸入圖像的質量有很大關系,假如輸入圖像存在很多圖像噪聲和水印,OCR的難度會非常大。在實際場景中,有很多情況會導致輸入圖像質量較差,如:用戶通過手機拍攝的照片由于光照、相機參數(shù)等影響,會在文本圖像上產生陰影;用戶拍攝書籍或試卷時,因為紙張?zhí)∈沟庙撁嫦碌膬热菀灿兴故荆粓D像本身就存在斑點、水印等。
因此,在OCR之前對文本圖像進行圖像增強,去除各類圖像噪聲和水印,突出文本部分是必不可少的前處理步驟。文本圖像:指包含有文本的圖像,可以是試卷、書籍紙張或者封面等任何包含文本的圖像;可以通過掃描儀和相機獲取。圖像增強:增強圖像中的有用信息,有目的地強調圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強調某些感興趣的特征,擴大圖像中不同物體特征之間的差別,抑制不感興趣的特征,使之改善圖像質量、豐富信息量,加強圖像判讀和識別效果,滿足某些特殊分析的需要。
當前的文本圖像增強主要通過傳統(tǒng)的圖像處理方法,如使用各類濾波操作去除圖像噪聲,使用otsu來對圖像二值化,使用模板匹配方法去除水印。這類傳統(tǒng)圖像處理方法想要完成去圖像噪聲、去水印、二值化的處理需要不同模塊來完成對應任務,處理過程過于繁瑣,并且往往效果一般,不具有很強的魯棒性。
有鑒于此,特提出本發(fā)明。
發(fā)明內容
本發(fā)明的目的在于:如何實現(xiàn)文本圖像的去除圖像噪聲、水印等干擾及圖像二值化的同時處理,提升讀者觀感和提高OCR的檢測和識別的準確率。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種文本圖像增強模型,具體地,采用了以下技術方案:
一種文本圖像增強模型,包括生成器和判別器,通過生成器和判別器的對抗學習,將待處理的原始彩色文本圖像增強生成不含圖像噪聲、水印的二值化圖像。
作為本發(fā)明的一種可選實施方式,所述的生成器包括編碼模塊,所述的編碼模塊包括r個卷積層級,每個層級都是由卷積層、IN歸一化層和PReLU激活層組成;
可選地,r個所述卷積層級的第一層的卷積核多于其余r-1層的卷積核。
作為本發(fā)明的一種可選實施方式,所述的生成器包括殘差網(wǎng)絡模塊,所述的殘差網(wǎng)絡模塊包括s個殘差模塊,每個殘差模塊包括至少三層卷積層,至少一個中間層卷積層的卷積核多于其它層卷積層的卷積核。
作為本發(fā)明的一種可選實施方式,所述的生成器包括與編碼模塊結構對稱的解碼模塊,所述的解碼模塊包括r個反卷積層級,各個反卷積層級的卷積核與編碼模塊的各個卷積層級的卷積核分別對應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于作業(yè)幫教育科技(北京)有限公司,未經作業(yè)幫教育科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110403094.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





