[發(fā)明專利]圖像文本識別方法、裝置、計算機設備及計算機存儲介質在審
| 申請?zhí)枺?/td> | 202010051869.4 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111275038A | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設計)人: | 陳楨妮 | 申請(專利權)人: | 平安醫(yī)療健康管理股份有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62 |
| 代理公司: | 北京中強智尚知識產(chǎn)權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 200001 上海市黃浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 文本 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種圖像文本識別方法,其特征在于,所述方法包括:
獲取待識別圖像,對所述待識別圖像進行預處理,得到目標識別圖像;
基于預先訓練的文本區(qū)域檢測模型,確定所述目標識別圖像中文本區(qū)域的位置信息以及文本區(qū)域的分類標簽;
將所述目標識別圖像以及所述目標識別圖像中文本區(qū)域的位置信息輸入至預先訓練的文本識別模型中,得到各個分類標簽下文本區(qū)域中的文本信息,形成具有分類標識的文本字段;
利用預先構建的各個分類標識對應的文本校驗庫,對所述具有分類標識的文本字段進行校驗。
2.根據(jù)權利要求1所述的方法,其特征在于,在所述利用預先構建的各個分類標識對應的文本校驗庫,對所述具有分類標識的文本字段進行校驗之前,所述方法還包括:
將收集詞典樣本轉換為編碼表示后輸入至第一網(wǎng)絡模型進行訓練,得到文本映射模型;
所述第一網(wǎng)絡模型中包括多層結構,所述將收集詞典樣本轉換為編碼表示后輸入至第一網(wǎng)絡模型進行訓練,得到文本映射模型,具體包括:
通過所述第一網(wǎng)絡模型的輸入層對所述編碼表示的文本字段樣本進行概率預測,生成每個文本字段樣本的概率分布;
通過所述第一網(wǎng)絡模型的隱含層根據(jù)每個文本字段樣本的概率分布,訓練每個文本字段樣本作為輸出字段的權重,得到文本字段的映射矩陣;
通過所述第一網(wǎng)絡模型的全連接層對所述文本字段的映射矩陣中的權重進行調整,得到文本映射模型。
3.根據(jù)權利要求2所述的方法,其特征在于,所述預先構建的各個分類標識對應的文本校驗庫中各個分類標識下文本字段的表示形式為向量值;在所述利用預先構建的各個分類標識對應的文本校驗庫,對所述具有分類標識的文本字段進行校驗之前,所述方法還包括:
利用預先訓練的文本映射模型,將所述具有分類標識的文本字段進行編碼表示后,得到具有分類標識的文本字段的向量值。
4.根據(jù)權利要求3所述的方法,其特征在于,所述利用預先構建的各個分類標識對應的文本校驗庫,對所述具有分類標識的文本字段進行校驗,具體包括:
通過將所述具有分類標識的文本字段的向量值與所述文本校驗庫中相應分類標識下文本字段對應的向量值進行相似度匹配;
根據(jù)所述相似度匹配所得到的值,對所述具有分類標識的文本字段進行校驗。
5.根據(jù)權利要求4所述的方法,其特征在于,所述根據(jù)所述相似度匹配所得到的值,對所述具有分類標識的文本字段進行校驗,具體包括:
若所述相似度匹配所得到的值大于預設閾值,則將所述具有分類標識的文本字段輸出為文本識別結果;
若所述相似度匹配所得到的值小于或等于預設閾值,則將所述具有分類標識的文本字段輸出為文本校驗結果。
6.根據(jù)權利要求1-5中任一項所述的方法,其特征在于,在所述基于預先訓練的文本區(qū)域檢測模型,確定所述目標識別圖像中文本區(qū)域的位置信息以及文本區(qū)域的分類標簽之前,所述方法還包括:
將收集的圖像樣本數(shù)據(jù)進行文本區(qū)域標注以及分類標注后輸入至第二網(wǎng)絡模型中進行訓練,得到文本區(qū)域檢測模型;
所述第二網(wǎng)絡模型中包括多層結構,所述將收集的圖像樣本數(shù)據(jù)進行文本區(qū)域標注以及分類標注后輸入至第二網(wǎng)絡模型中進行訓練,得到文本區(qū)域檢測模型,具體包括:
通過所述第二網(wǎng)絡模型的卷積層提取圖像樣本數(shù)據(jù)對應的圖像區(qū)域特征;
通過所述第二網(wǎng)絡模型的預測層利用多尺度的候選文本框預測圖像樣本數(shù)據(jù)對應的圖像區(qū)域特征的邊界框,確定圖像樣本數(shù)據(jù)中的文本區(qū)域;
通過所述第二網(wǎng)絡模型的邏輯回歸層根據(jù)所述文本區(qū)域的分類標簽對所述圖像樣本數(shù)據(jù)中的文本區(qū)域所屬類別進行分類,得到文本區(qū)域的位置信息以及文本區(qū)域的分類標簽。
7.根據(jù)權利要6所述的方法,其特征在于,在所述將收集的圖像樣本數(shù)據(jù)進行文本區(qū)域標注以及分類標注后輸入至第二網(wǎng)絡模型中進行訓練,得到文本區(qū)域檢測模型之后,所述方法還包括:
利用圖像樣本數(shù)據(jù)進行文本區(qū)域標注以及分類標注后的標注數(shù)據(jù),采用預先設置的損失函數(shù)對所述文本區(qū)域檢測模型中多層結構進行參數(shù)調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安醫(yī)療健康管理股份有限公司,未經(jīng)平安醫(yī)療健康管理股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010051869.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





