[發明專利]文本識別方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201911413616.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111178358A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 周康明;馮曉銳 | 申請(專利權)人: | 上海眼控科技股份有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 200030 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種文本識別方法、裝置、計算機設備和存儲介質。該方法包括:利用目標檢測算法對獲取的文本圖像進行檢測,得到各個文本框圖像;將文本框圖像輸入至預設的第一神經網絡中進行文本識別以及詞向量轉換,得到文本框圖像中文本的詞向量;將文本框圖像輸入至預設的第二神經網絡中進行特征提取,得到文本框圖像對應的融合特征;該融合特征用于表征文本框圖像中的文本內容以及文本內容的空間分布信息;將文本的詞向量和融合特征進行拼接后輸入至第一長短期記憶網絡中進行特征提取,得到提取特征;將提取特征輸入至分類網絡,確定文本內容的類別。采用本方法能夠提高文本類別識別的準確性。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本識別方法、裝置、計算機設備和存儲介質。
背景技術
在日常工作學習過程中,當查閱文檔時,難免會遇到一些無法復制的網頁文字或者PDF(Portable Document Format,可移植文檔格式)文件,這時候如果需要該文檔的可編輯版本,那么就會采用文字識別軟件來對該網頁或PDF上的文本進行識別,以得到其上的文本。
目前文本識別常用的方法主要由文本定位和文本識別組成,首先將文本圖像輸入定位網絡,得到文本定位結果和文本分類結果,之后將得到的文本定位結果送入識別網絡,利用輸入圖像的文本信息進行識別,當待識別的表單中出現相近的目標時,例如,表單中存在多種日期時(開始日期、結束日期、當前日期),在定位網絡處理時,得到的文本分類結果可能會造成誤分類,再者不同表單中的文本格式也存在差別,這又增加了分類的難度,因此最終根據識別網絡的識別結果,無法正確定位哪個是當前日期。
可見,上述方法存在識別的文本類別不準確的問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高識別文本類別的文本識別方法、裝置、計算機設備和存儲介質。
一種文本識別方法,該方法包括:
利用目標檢測算法對獲取的文本圖像進行檢測,得到各個文本框圖像;
將文本框圖像輸入至預設的第一神經網絡中進行文本識別以及詞向量轉換,得到文本框圖像中文本的詞向量;
將文本框圖像輸入至預設的第二神經網絡中進行特征提取,得到文本框圖像對應的融合特征;該融合特征用于表征文本框圖像中的文本內容以及文本內容的空間分布信息;
將文本的詞向量和融合特征進行拼接后輸入至第一長短期記憶網絡中進行特征提取,得到提取特征;
將提取特征輸入至分類網絡,確定文本內容的類別。
在其中一個實施例中,上述將文本框圖像輸入至預設的第二神經網絡中進行特征提取,得到文本框圖像對應的融合特征,包括:
根據文本內容以及文本內容的空間分布信息,將文本框圖像轉化成文本框圖像的節點圖;該文本框圖像的節點圖包括節點和邊線,節點包括文本內容,邊線表征文本內容的空間分布信息;
將文本框圖像的節點圖輸入至第二神經網絡中進行特征提取,得到文本框圖像對應的融合特征。
在其中一個實施例中,上述將文本框圖像的節點圖輸入至第二神經網絡中進行特征提取,得到文本框圖像對應的融合特征,包括:
將節點和邊線進行拼接,并將拼接后的信息輸入至多層感知機網絡中進行特征提取,得到文本框的中間特征;
根據文本框的中間特征和預設的注意力系數,得到文本框圖像的融合特征。
在其中一個實施例中,上述分類網絡為條件隨機場網絡。
在其中一個實施例中,上述第一長短期記憶網絡為雙向長短期記憶網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海眼控科技股份有限公司,未經上海眼控科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911413616.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應急決策指揮系統及方法
- 下一篇:一種監控服務器集群的網卡的方法和設備





