[發明專利]文本識別方法、裝置、計算機設備和存儲介質在審

申請號：	201911413616.0	申請日：	2019-12-31
公開（公告）號：	CN111178358A	公開（公告）日：	2020-05-19
發明（設計）人：	周康明;馮曉銳	申請（專利權）人：	上海眼控科技股份有限公司
主分類號：	G06K9/32	分類號：	G06K9/32;G06K9/62
代理公司：	廣州華進聯合專利商標代理有限公司 44224	代理人：	毛丹
地址：	200030 上海市徐匯***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本識別方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種文本識別方法、裝置、計算機設備和存儲介質。該方法包括：利用目標檢測算法對獲取的文本圖像進行檢測，得到各個文本框圖像；將文本框圖像輸入至預設的第一神經網絡中進行文本識別以及詞向量轉換，得到文本框圖像中文本的詞向量；將文本框圖像輸入至預設的第二神經網絡中進行特征提取，得到文本框圖像對應的融合特征；該融合特征用于表征文本框圖像中的文本內容以及文本內容的空間分布信息；將文本的詞向量和融合特征進行拼接后輸入至第一長短期記憶網絡中進行特征提取，得到提取特征；將提取特征輸入至分類網絡，確定文本內容的類別。采用本方法能夠提高文本類別識別的準確性。

技術領域

本申請涉及計算機技術領域，特別是涉及一種文本識別方法、裝置、計算機設備和存儲介質。

背景技術

在日常工作學習過程中，當查閱文檔時，難免會遇到一些無法復制的網頁文字或者PDF(Portable Document Format，可移植文檔格式)文件，這時候如果需要該文檔的可編輯版本，那么就會采用文字識別軟件來對該網頁或PDF上的文本進行識別，以得到其上的文本。

目前文本識別常用的方法主要由文本定位和文本識別組成，首先將文本圖像輸入定位網絡，得到文本定位結果和文本分類結果，之后將得到的文本定位結果送入識別網絡，利用輸入圖像的文本信息進行識別，當待識別的表單中出現相近的目標時，例如，表單中存在多種日期時(開始日期、結束日期、當前日期)，在定位網絡處理時，得到的文本分類結果可能會造成誤分類，再者不同表單中的文本格式也存在差別，這又增加了分類的難度，因此最終根據識別網絡的識別結果，無法正確定位哪個是當前日期。

可見，上述方法存在識別的文本類別不準確的問題。

發明內容

基于此，有必要針對上述技術問題，提供一種能夠提高識別文本類別的文本識別方法、裝置、計算機設備和存儲介質。

一種文本識別方法，該方法包括：

利用目標檢測算法對獲取的文本圖像進行檢測，得到各個文本框圖像；

將文本框圖像輸入至預設的第一神經網絡中進行文本識別以及詞向量轉換，得到文本框圖像中文本的詞向量；

將文本框圖像輸入至預設的第二神經網絡中進行特征提取，得到文本框圖像對應的融合特征；該融合特征用于表征文本框圖像中的文本內容以及文本內容的空間分布信息；

將文本的詞向量和融合特征進行拼接后輸入至第一長短期記憶網絡中進行特征提取，得到提取特征；

將提取特征輸入至分類網絡，確定文本內容的類別。

在其中一個實施例中，上述將文本框圖像輸入至預設的第二神經網絡中進行特征提取，得到文本框圖像對應的融合特征，包括：

根據文本內容以及文本內容的空間分布信息，將文本框圖像轉化成文本框圖像的節點圖；該文本框圖像的節點圖包括節點和邊線，節點包括文本內容，邊線表征文本內容的空間分布信息；

將文本框圖像的節點圖輸入至第二神經網絡中進行特征提取，得到文本框圖像對應的融合特征。