[發明專利]文本識別方法、裝置、電子設備及存儲介質有效

申請號：	202010640844.8	申請日：	2020-07-06
公開（公告）號：	CN111783695B	公開（公告）日：	2022-06-07
發明（設計）人：	康凱;李兵;李盼盼	申請（專利權）人：	北京易真學思教育科技有限公司
主分類號：	G06V30/413	分類號：	G06V30/413;G06V30/10;G06F40/279
代理公司：	北京市鑄成律師事務所 11313	代理人：	鄧海鴻;楊瑾瑾
地址：	100144 北京市石景山區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本識別方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本識別方法，其特征在于，包括：

識別步驟，利用文本識別模型對待識別圖像中的部分區域進行文本識別，得到所述部分區域對應的字符串；

第一計算步驟，將所述字符串分別與所述文本識別模型的字表中的每個字符組合成字符串組，并計算各個所述字符串組的概率；

排序步驟，根據概率對各個所述字符串組進行排序，選取排序在前的預定個數的字符串組；

第二計算步驟，計算選取的字符串組的末尾字符的單字符置信度，所述單字符置信度用于對所述待識別圖像的文本識別結果進行篩選。

2.根據權利要求1所述的方法，其特征在于，將所述字符串分別與所述文本識別模型的字表中的每個字符組合成字符串組，包括：

將所述字符串分別與字表中的每個字符組合，得到組合串組；

對所述組合串組進行規范化處理，得到所述字符串組。

3.根據權利要求2所述的方法，其特征在于，對所述組合串組進行規范化處理，得到所述字符串組，包括采用以下方式中的至少一種對所述組合串組進行規范化處理：

去除所述組合串組中處于非末尾位置上的空字符；

在所述組合串組中的兩個相鄰的字符是相同字符的情況下，去掉所述兩個相鄰的字符中的一個字符。

4.根據權利要求1所述的方法，其特征在于，計算選取的字符串組的末尾字符的單字符置信度，包括：

從所述選取的字符串組中，將末尾字符為空字符的字符串組過濾掉；

計算過濾后的字符串組的末尾字符的單字符置信度。

5.根據權利要求1所述的方法，其特征在于，計算選取的字符串組的末尾字符的單字符置信度，包括：

在所述末尾字符與所述末尾字符的前一個字符是相同字符的情況下，利用以下單字符置信度公式計算所述單字符置信度；

所述單字符置信度公式為：p＝1-(1-p1)×(1-p2)，其中，p表示所述單字符置信度，p2表示所述末尾字符的概率，p1表示所述末尾字符的前一個字符的概率。

6.根據權利要求1所述的方法，其特征在于，所述方法還包括：

將所述待識別圖像劃分成多個區域；

在每次執行所述識別步驟之前，將所述待識別圖像的第一個區域到當前識別區域組成的連續區域，構成與所述當前識別區域對應的所述部分區域；

在每次執行所述識別步驟之后，對于所述部分區域對應的字符串，執行所述第一計算步驟、所述排序步驟和所述第二計算步驟，得到每個所述部分區域對應的單字符置信度。

7.根據權利要求1至6中任一項所述的方法，其特征在于，還包括：

根據每個所述部分區域對應的單字符置信度，對所述待識別圖像的文本識別結果進行篩選。

8.根據權利要求7所述的方法，其特征在于，根據每個所述部分區域對應的單字符置信度，對所述待識別圖像的文本識別結果進行篩選，包括：

計算每個所述部分區域對應的任意兩個單字符置信度之間的差別程度；

在所述差別程度大于預定閾值的情況下，從所述待識別圖像的文本識別結果中，將兩個所述單字符置信度中較小的一個單字符置信度對應的文本識別結果篩選掉。

9.一種文本識別裝置，其特征在于，包括：

識別單元，用于利用文本識別模型對待識別圖像中的部分區域進行文本識別，得到所述部分區域對應的字符串；

第一計算單元，用于將所述字符串分別與所述文本識別模型的字表中的每個字符組合成字符串組，并計算各個所述字符串組的概率；

排序單元，用于根據概率對各個所述字符串組進行排序，選取排序在前的預定個數的字符串組；

第二計算單元，用于計算選取的字符串組的末尾字符的單字符置信度，所述單字符置信度用于對所述待識別圖像的文本識別結果進行篩選。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京易真學思教育科技有限公司，未經北京易真學思教育科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010640844.8/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：打火機壓電點火裝置塑料本體全自動澆口分剝離機
下一篇：生成機器學習樣本的組合特征的方法及系統

同類專利

專利分類

G 物理

G06 計算；推算；計數

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】