[發明專利]文字識別矯正的方法在審
| 申請號: | 202011482957.6 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112507080A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 呂學強;游新冬;董志安 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06F40/232;G06F40/166 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文字 識別 矯正 方法 | ||
1.一種文字識別矯正的方法,其特征在于,包括:
構建專業詞庫;
構建識別結果區域矩陣;
矯正。
2.根據權利要求1所述的方法,其特征在于,所述矯正包括:
基于語言模型進行矯正;
基于編輯距離和最長公共子序列進行矯正;
基于對應關系進行矯正。
3.根據權利要求2所述的方法,其特征在于,基于語言模型進行矯正,包括:
語言模型通過概率分布來統計字符出現的概率,通過統計結果,計算最大的條件概率;第一個檢測區域識別的結果S1,選取CRNN網絡給出的前三個候選字,每個候選區域的概率W(S1)根據網絡預測的概率重新歸一化,第二個候選區域識別結果S2,選取CRNN網絡給出的前三個候選字,每個候選區域的概率W(S2)根據網絡預測的概率重新歸一化,第二個候選區域識別結果S2,選取CRNN網絡給出的前三個候選字,每個候選區域的概率W(S3)根據網絡預測的概率重新歸一化;
根據概率統計分析,條件概率P(S2|S1),即S1出現的情況下后面接S2的概率;
f=W(S1)P(S2|S1)W(S2)P(S3|S2)W(S3)
f的最大值即為最優得組合方式;
對于預測序列S1,S2,S3...Sn,需要計算f的最大值,W(Si)根據CRNN預測概率進行重新歸一化,條件概率P(Si+1|Si)根據詞庫,統計Si出現的次數N(Si),統計Si和Si+1前后共同出現的次數N(Si,Si+1),
f=W(S1)P(S2|S1)W(S2)...W(Sn-1)P(Sn|Sn-1)W(Sn)
條件概率公式為
求解最優組合路徑問題的最優解。
4.根據權利要求2所述的方法,其特征在于,所述基于編輯距離和最長公共子序列進行矯正,包括:
對編輯距離和最長公共子序列兩種方法的計算結果進行加權求和。
5.根據權利要求1所述的方法,其特征在于,所述基于對應關系進行矯正,包括:
根據各項的對應關系,根據識別出的項矯正與該被識別出的項存在對應關系的項的識別結果。
6.根據權利要求1所述的方法,其特征在于,所述構建識別結果區域矩陣,包括:根據識別結果的每個區域取前N,構建識別結果區域矩陣,其中,N為正整數。
7.一種電子設備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序,以實現如權利要求1-6中任一所述的方法。
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行,以實現如權利要求1-6中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011482957.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種乙基纖維素中空微囊
- 下一篇:融合實體關鍵字特征的醫療領域實體分類方法





