[發明專利]光學字符識別模型訓練和識別方法、裝置、設備及介質有效
| 申請號: | 202110341261.X | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113033431B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 黃聚;謝群義;李煜林;欽夏孟;章成全;姚錕 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V20/62;G06V30/18;G06V10/82;G06F40/30;G06N3/044;G06N3/0442 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 光學 字符 識別 模型 訓練 方法 裝置 設備 介質 | ||
本公開公開了一種光學字符識別模型訓練和識別方法、裝置、設備及介質,涉及人工智能技術領域,尤其涉及計算機視覺和深度學習技術,可用于OCR場景下。具體實現方案為:對樣本圖像進行特征提取,得到樣本特征數據;將所述樣本特征數據輸入至光學字符識別模型,以確定所述樣本特征數據中的文字區域對應的局部特征數據,并提取所述局部特征數據中的語義信息,根據所述語義信息,確定所述文字區域的預測類別;根據所述預測類別和所述文字區域的標簽類別,對所述光學字符識別模型進行訓練。本公開提高了光學字符識別模型的類別預測結果的準確度。
技術領域
本公開涉及人工智能技術領域,尤其涉及計算機視覺和深度學習技術,可用于OCR(Optical?Character?Recognition,光學字符識別)場景下。
背景技術
票據是一種重要的結構化信息的文本載體,被廣泛應用于各種場景中。由于不同應用場景下票據的種類不同、不同種類的票據版式復雜、項目繁多,因此,在進行票據報銷時,需要針對各票據進行票據項目識別,以得到結構化的票據信息。
在進行票據識別時,需要對票據按照票據的項目(例如票據名稱、納稅人識別號等)類別進行劃分。現有技術在進行票據項目類別劃分時,通常采用模板匹配的方式加以實現,其準確度較低。
發明內容
本公開提供了一種光學字符識別模型訓練和識別方法、裝置、設備及介質。
根據本公開的一方面,提供了一種光學字符識別模型訓練方法,包括:
對樣本圖像進行特征提取,得到樣本特征數據;
將所述樣本特征數據輸入至光學字符識別模型,以確定所述樣本特征數據中的文字區域對應的局部特征數據,并提取所述局部特征數據中的語義信息,根據所述語義信息,確定所述文字區域的預測類別;
根據所述預測類別和所述文字區域的標簽類別,對所述光學字符識別模型進行訓練。
根據本公開的另一方面,還提供了一種光學字符識別方法,包括:
對目標圖像進行特征提取,得到目標特征數據;
將所述目標特征數據輸入至訓練好的光學字符識別模型,以確定所述目標特征數據中的文字區域對應的局部特征數據,并提取所述局部特征數據中的語義信息,根據所述語義信息確定所述文字區域的預測類別。
根據本公開的另一方面,還提供了一種光學字符識別模型訓練裝置,包括:
樣本特征數據得到模塊,用于對樣本圖像進行特征提取,得到樣本特征數據;
預測類別確定模塊,用于將所述樣本特征數據輸入至光學字符識別模型,以確定所述樣本特征數據中的文字區域對應的局部特征數據,并提取所述局部特征數據中的語義信息,根據所述語義信息,確定所述文字區域的預測類別;
模型訓練模塊,用于根據所述預測類別和所述文字區域的標簽類別,對所述光學字符識別模型進行訓練。
根據本公開的另一方面,還提供了一種光學字符識別裝置,包括:
目標特征數據得到模塊,用于對目標圖像進行特征提取,得到目標特征數據;
預測類別確定模塊,用于將所述目標特征數據輸入至訓練好的光學字符識別模型,以確定所述目標特征數據中的文字區域對應的局部特征數據,并提取所述局部特征數據中的語義信息,根據所述語義信息確定所述文字區域的預測類別。
根據本公開的另一方面,還提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110341261.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:回氫泵轉子的加工方法
- 下一篇:存儲器及其操作方法、裝置、存儲介質





