[發明專利]圖像識別模型的訓練方法、裝置、設備以及介質在審
| 申請號: | 202110090986.6 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112784751A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 劉瑞雪;欽夏孟;恩孟一;姚錕;章成全;朱勝賢;李云昊;韓鈞宇;孫昊 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06N3/08 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 識別 模型 訓練 方法 裝置 設備 以及 介質 | ||
本公開提供了一種圖像識別模型的訓練方法、裝置、設備以及介質,涉及人工智能技術領域,尤其涉及計算機視覺、深度學習、圖像處理技術領域,可應用于OCR場景。該圖像識別模型的訓練方法包括:獲取訓練數據,其中,訓練數據包括針對預設垂類的訓練圖像,訓練圖像包括包含預設垂類的真實數據的第一訓練圖像和包含預設垂類的虛擬數據的第二訓練圖像;構建基礎模型,其中,基礎模型包括深度學習網絡,深度學習網絡配置為對訓練圖像進行識別,以提取訓練圖像中的文本數據;以及使用訓練數據訓練基礎模型,以得到圖像識別模型。
技術領域
本公開涉及人工智能技術領域,尤其涉及計算機視覺、深度學習、圖像處理技術領域,具體涉及一種圖像識別模型的訓練方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產品。
背景技術
光學字符識別(Optical Character Recognition,OCR):是指電子設備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。
隨著深度學習的發展,一些現有的分類識別OCR方法被各種深度神經網絡所代替。深度學習網絡模型的訓練需要大量數據的支持,然而,對于一些數據具有私密性的場景,難以獲取大量的訓練數據,導致光學字符識別效率不高。
發明內容
本公開提供了一種圖像識別模型的訓練方法、圖像識別方法、裝置、電子設備和介質。
根據本公開的一個方面,提供了一種圖像識別模型的訓練方法,包括:獲取訓練數據,其中,訓練數據包括針對預設垂類的訓練圖像,訓練圖像包括包含預設垂類的真實數據的第一訓練圖像和包含預設垂類的虛擬數據的第二訓練圖像;構建基礎模型,其中,基礎模型包括深度學習網絡,深度學習網絡配置為對訓練圖像進行識別,以提取訓練圖像中的文本數據;以及使用訓練數據訓練基礎模型,以得到圖像識別模型。
根據本公開的另一方面,提供了一種圖像識別方法,包括:獲取待識別的目標圖像;以及基于根據本公開第一方面的圖像識別模型,對待識別的目標圖像進行識別,以提取待識別的目標圖像的文本數據。
根據本公開的另一方面,提供了一種圖像識別模型的訓練裝置,包括:獲取單元,配置為獲取訓練數據,其中,訓練數據包括針對預設垂類的訓練圖像,訓練圖像包括包含預設垂類的真實數據的第一訓練圖像和包含預設垂類的虛擬數據的第二訓練圖像;構建單元,配置為構建基礎模型,其中,基礎模型包括深度學習網絡,深度學習網絡配置為對訓練圖像進行識別,以提取訓練圖像中的文本數據;以及訓練單元,配置為使用訓練數據訓練基礎模型,以得到圖像識別模型。
根據本公開的另一方面,提供了一種圖像識別裝置,包括:接收單元,配置為接收待識別的目標圖像;以及識別單元,配置為基于根據本公開第一方面的圖像識別模型,對待識別的目標圖像進行識別,以提取待識別的目標圖像中的文本數據。
根據本公開的另一方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器。所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行本公開第一和第二方面提供的方法。
根據本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行本公開第一和第二方面提供的方法。
根據本公開的另一方面,提供了一種計算機程序產品,包括計算機程序。其中,計算機程序被處理器執行時實現本公開第一和第二方面提供的方法。
本公開實施例提供的技術方案帶來的有益技術效果至少包括:通過在訓練的過程中同時使用包含真實數據的第一訓練圖像和包含虛擬數據的第二訓練圖像,可以提高訓練效率,提高圖像識別模型識別的準確性。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110090986.6/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





