[發(fā)明專利]圖像識別方法和用于訓練圖像識別模型的方法在審
| 申請?zhí)枺?/td> | 202210503528.5 | 申請日: | 2022-05-09 |
| 公開(公告)號: | CN114821581A | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 陳科樺;倪子涵;孫逸鵬;姚錕 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06V30/10 | 分類號: | G06V30/10;G06V30/18;G06V30/19;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 識別 方法 用于 訓練 模型 | ||
本公開提供了一種圖像識別方法和用于訓練圖像識別模型的方法,涉及人工智能技術領域,具體為深度學習、圖像處理、計算機視覺技術領域,可應用于OCR等場景。實現(xiàn)方案為:獲得目標圖像,目標圖像包括沿第一方向排列的第一數(shù)量的字符,第一數(shù)量的字符中的每一個字符來自具有相應的預設標簽集的預設字符集;基于目標圖像,獲得按順序排列的第二數(shù)量的標簽,第二數(shù)量的標簽中的每一個標簽來自預設標簽集,按順序排列的第二數(shù)量的標簽與目標圖像中沿第一方向排列的第二數(shù)量的區(qū)域對應;以及獲得目標圖像的識別結果,識別結果包括與按順序排列的第二數(shù)量的標簽中的第一數(shù)量的標簽相應的按順序排列的第一數(shù)量的字符。
技術領域
本公開涉及人工智能技術領域,具體為深度學習、圖像處理、計算機視覺技術領域,可應用于人臉識別等場景,具體涉及一種圖像識別方法和用于訓練圖像識別模型的方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產(chǎn)品。
背景技術
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規(guī)劃等)的學科,既有硬件層面的技術也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數(shù)據(jù)處理等技術:人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數(shù)據(jù)處理技術、知識圖譜技術等幾大方向。
基于人工智能的圖像處理技術,已經(jīng)滲透到各個領域。其中,基于人工智能的光學字符識別(OCR)技術,通過對圖像進行處理,識別圖像上的形狀,并將所識別的形狀翻譯成字符。
在此部分中描述的方法不一定是之前已經(jīng)設想到或采用的方法。除非另有指明,否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現(xiàn)有技術。類似地,除非另有指明,否則此部分中提及的問題不應認為在任何現(xiàn)有技術中已被公認。
發(fā)明內容
本公開提供了一種圖像識別方法、用于訓練圖像識別模型的方法、裝置、電子設備、計算機可讀存儲介質和計算機程序產(chǎn)品。
根據(jù)本公開的一方面,提供了一種圖像識別方法,包括:獲得目標圖像,所述目標圖像包括沿第一方向排列的第一數(shù)量的字符,所述第一數(shù)量的字符中的每一個字符來自具有相應的預設標簽集的預設字符集;基于所述目標圖像,獲得按順序排列的第二數(shù)量的標簽,所述第二數(shù)量的標簽中的每一個標簽來自所述預設標簽集,所述按順序排列的第二數(shù)量的標簽與所述目標圖像中沿所述第一方向排列的所述第二數(shù)量的區(qū)域對應;以及基于所述按順序排列的第二數(shù)量的標簽,獲得所述目標圖像的識別結果,所述識別結果包括與所述按順序排列的第二數(shù)量的標簽中的所述第一數(shù)量的標簽相應的按順序排列的所述第一數(shù)量的字符。
根據(jù)本公開的另一方面,提供了一種用于訓練圖像識別模型的方法,包括:獲得訓練圖像,所述訓練圖像包括沿第一方向排列的第一數(shù)量的字符,所述第一數(shù)量的字符中的每一個字符來自具有相應的預設標簽集的預設字符集;獲得所述訓練圖像的標注標簽,所述標注標簽包括按順序排列的所述第一數(shù)量的標簽,所述按順序排列的第一數(shù)量的標簽與所述第一方向排列的第一數(shù)量的字符對應,并且所述第一數(shù)量中的每一個標簽來自所述預設標簽集;將所述訓練圖像輸入至圖像識別模型,以獲得按順序排列的第二數(shù)量的標簽,所述第二數(shù)量的標簽中的每一個標簽來自所述預設標簽集,所述按順序排列的所述第二數(shù)量的標簽與所述目標圖像中沿所述第一方向排列的所述第二數(shù)量的區(qū)域對應;獲得預測標簽,所述預測標簽包括所述按順序排列的第二數(shù)量的標簽中的所述第一數(shù)量的標簽;以及基于所述標注標簽和所述預測標簽,調整所述圖像識別模型的參數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210503528.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種前后分段的內錐體
- 下一篇:一種IGZO廢靶回收再利用的方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





