[發明專利]一種圖像分類方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110235776.1 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN112966522B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 庾悅晨;章成全;李煜林;張曉強;黃聚;欽夏孟;姚錕;劉經拓;韓鈞宇;丁二銳 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06V30/414;G06V20/62;G06V30/19;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 圖像 分類 方法 裝置 電子設備 存儲 介質 | ||
本公開公開了一種圖像分類方法,裝置、電子設備及存儲介質,涉及人工智能技術領域,尤其涉及計算機視覺和深度學習方面。具體實現方案為:將待分類的文檔圖像輸入到預先訓練好的神經網絡模型中,通過神經網絡模型得到待分類的文檔圖像的各個文本框的特征子圖;將各個文本框的特征子圖與各個文本框的文本信息對應的語義特征和位置信息對應的位置特征輸入至多模態特征融合模型中,通過多模態特征融合模型將三者融合為各個文本框對應的多模態特征;基于各個文本框對應的多模態特征對待分類的文檔圖像進行分類。本申請實施例能夠很好地利用文檔圖像中存在的語義特征和位置特征,最終達到提升文檔圖像的分類精度的目的。
技術領域
本公開涉及人工智能技術領域,具體涉及計算機視覺和深度學習方面,尤其涉及一種圖像分類方法、裝置、電子設備及存儲介質。
背景技術
光學字符識別(Optical Character Recognition,簡稱OCR)在教育、金融、醫療、交通和保險等各行各業都取到了廣泛的關注和應用。隨著辦公電子化程度的提高,原本以紙質形式保存的文檔資料逐漸通過掃描儀等電子化手段轉為以圖像形式保存。為了能查詢或者調閱指定記錄的圖像,需要將影像和影像內容數據建立索引。為建立索引一般通過OCR技術將掃描得到的影像分類、然后再進行識別以得到其內容。
業界主流的基于卷積神經網絡的分類方法,往往只能提取文檔圖像的圖像特征以用于分類文檔圖像。然而,這種方法忽略了其中文本的語義特征和位置特征,這樣就并不能很好地利用文檔圖像里面的語義特征和位置特征,而這些信息對文檔圖像分類問題十分重要。基于卷積神經網絡的分類方法雖然可以利用文檔圖像里面的語義特征和位置特征,但是往往需要用復雜的后處理來提升分類精度。
發明內容
本公開提供了一種圖像分類方法、裝置、電子設備及存儲介質。
第一方面,本申請提供了一種圖像分類方法,所述方法包括:
將待分類的文檔圖像輸入到預先訓練好的神經網絡模型中,通過所述神經網絡模型得到所述待分類的文檔圖像的各個文本框的特征子圖;
將各個文本框的特征子圖與預先得到的各個文本框的文本信息對應的語義特征和位置信息對應的位置特征輸入至預先訓練好的多模態特征融合模型中,通過所述多模態特征融合模型將所述各個文本框的特征子圖與預先得到的各個文本框的文本信息對應的語義特征和位置信息對應的位置特征融合為各個文本框對應的多模態特征;
基于各個文本框對應的多模態特征對所述待分類的文檔圖像進行分類。
第二方面,本申請提供了一種圖像分類裝置,所述裝置包括:特征圖獲取模塊、特征融合模塊和圖像分類模塊;其中,
所述特征圖獲取模塊,用于將待分類的文檔圖像輸入到預先訓練好的神經網絡模型中,通過所述神經網絡模型得到所述待分類的文檔圖像的各個文本框的特征子圖;
所述特征融合模塊,用于將各個文本框的特征子圖與預先得到的各個文本框的文本信息對應的語義特征和位置信息對應的位置特征輸入至預先訓練好的多模態特征融合模型中,通過所述多模態特征融合模型將所述各個文本框的特征子圖與預先得到的各個文本框的文本信息對應的語義特征和位置信息對應的位置特征融合為各個文本框對應的多模態特征;
所述圖像分類模塊,用于基于各個文本框對應的多模態特征對所述待分類的文檔圖像進行分類。
第三方面,本申請實施例提供了一種電子設備,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現本申請任意實施例所述的圖像分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110235776.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





