[發(fā)明專利]一種文字識(shí)別糾錯(cuò)方法、糾錯(cuò)系統(tǒng)及計(jì)算機(jī)裝置有效
| 申請?zhí)枺?/td> | 201710813109.0 | 申請日: | 2017-09-11 |
| 公開(公告)號(hào): | CN107633250B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 劉晨 | 申請(專利權(quán))人: | 暢捷通信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06V30/148 | 分類號(hào): | G06V30/148 |
| 代理公司: | 北京友聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
| 地址: | 100094 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文字 識(shí)別 糾錯(cuò) 方法 系統(tǒng) 計(jì)算機(jī) 裝置 | ||
1.一種文字識(shí)別糾錯(cuò)方法,其特征在于,包括:
獲取文字圖片,對所述文字圖片進(jìn)行識(shí)別得到文字識(shí)別結(jié)果;
檢測所述文字識(shí)別結(jié)果,確定識(shí)別錯(cuò)誤區(qū)域;
獲取所述識(shí)別錯(cuò)誤區(qū)域內(nèi)文字的存在概率,將所述存在概率小于預(yù)設(shè)閾值的文字作為錯(cuò)誤文字;
篩選所述錯(cuò)誤文字的相似候選集;
對所述相似候選集內(nèi)文字排列組合,并計(jì)算匹配得分,將所述匹配得分最高的組合作為糾錯(cuò)結(jié)果;
將所述糾錯(cuò)結(jié)果與所述錯(cuò)誤文字進(jìn)行替換;
所述篩選所述錯(cuò)誤文字的所述相似候選集的步驟,具體包括:
根據(jù)所述錯(cuò)誤文字的屬性與漢字庫中文字的屬性,計(jì)算所述錯(cuò)誤文字與所述漢字庫中文字的相似度得分;
將所述相似度得分大于預(yù)設(shè)閾值的所述漢字庫中文字進(jìn)行集合,作為所述相似候選集;
所述錯(cuò)誤文字的屬性以及所述漢字庫中文字的屬性包括文字結(jié)構(gòu)、四角碼、筆順編碼、字向量;
所述根據(jù)所述錯(cuò)誤文字的屬性與所述漢字庫中文字的屬性,計(jì)算所述錯(cuò)誤文字與所述漢字庫中文字的相似度得分的步驟,具體包括:
比較所述錯(cuò)誤文字的文字結(jié)構(gòu)與所述漢字庫中文字的文字結(jié)構(gòu),當(dāng)所述錯(cuò)誤文字的文字結(jié)構(gòu)與所述漢字庫中文字的文字結(jié)構(gòu)相同時(shí),得到結(jié)構(gòu)相似度得分;
對所述錯(cuò)誤文字的四角碼與所述漢字庫中文字的四角碼進(jìn)行編輯距離計(jì)算,得到四角碼相似度得分;
對所述錯(cuò)誤文字的筆順編碼與所述漢字庫中文字的筆順編碼進(jìn)行編輯距離計(jì)算,得到筆順相似度得分;
計(jì)算所述錯(cuò)誤文字的字向量與所述漢字庫中文字的字向量的夾角的余弦值,作為字向量相似度得分;
計(jì)算所述結(jié)構(gòu)相似度得分、所述四角碼相似度得分、所述筆順相似度得分、所述字向量相似度得分的和,作為所述相似度得分。
2.根據(jù)權(quán)利要求1所述的文字識(shí)別糾錯(cuò)方法,其特征在于,對所述相似候選集內(nèi)文字排列組合,并計(jì)算匹配得分,將所述匹配得分最高的組合作為所述糾錯(cuò)結(jié)果的步驟,具體包括:
對所述相似候選集內(nèi)文字排列組合,得到多個(gè)詞;
分別對每個(gè)所述詞與領(lǐng)域詞典內(nèi)的領(lǐng)域詞進(jìn)行編輯距離計(jì)算,得到匹配得分;
將所述匹配得分最高的詞作為所述糾錯(cuò)結(jié)果。
3.根據(jù)權(quán)利要求1所述的文字識(shí)別糾錯(cuò)方法,其特征在于,還包括:
存儲(chǔ)所述錯(cuò)誤文字的所述相似候選集。
4.一種文字識(shí)別糾錯(cuò)系統(tǒng),其特征在于,包括:
識(shí)別單元,用于獲取文字圖片,對所述文字圖片進(jìn)行識(shí)別得到文字識(shí)別結(jié)果;
檢測單元,用于檢測所述文字識(shí)別結(jié)果,確定識(shí)別錯(cuò)誤區(qū)域;
獲取單元,用于獲取所述識(shí)別錯(cuò)誤區(qū)域內(nèi)文字的存在概率,將所述存在概率小于預(yù)設(shè)閾值的文字作為錯(cuò)誤文字;
篩選單元,用于篩選所述錯(cuò)誤文字的相似候選集;
第一計(jì)算單元,用于對所述相似候選集內(nèi)文字排列組合,并計(jì)算匹配得分,將所述匹配得分最高的組合作為糾錯(cuò)結(jié)果;
替換單元,用于將所述糾錯(cuò)結(jié)果與所述錯(cuò)誤文字進(jìn)行替換;
所述篩選單元,包括:
第二計(jì)算單元,用于根據(jù)所述錯(cuò)誤文字的屬性與漢字庫中文字的屬性,計(jì)算所述錯(cuò)誤文字與所述漢字庫中文字的相似度得分;
所述篩選單元,具體用于將所述相似度得分大于預(yù)設(shè)閾值的所述漢字庫中文字進(jìn)行集合,作為所述相似候選集;
所述錯(cuò)誤文字的屬性以及所述漢字庫中文字的屬性包括文字結(jié)構(gòu)、四角碼、筆順編碼、字向量;
所述第二計(jì)算單元,具體用于:
比較所述錯(cuò)誤文字的文字結(jié)構(gòu)與所述漢字庫中文字的文字結(jié)構(gòu),當(dāng)所述錯(cuò)誤文字的文字結(jié)構(gòu)與所述漢字庫中文字的文字結(jié)構(gòu)相同時(shí),得到結(jié)構(gòu)相似度得分;
對所述錯(cuò)誤文字的四角碼與所述漢字庫中文字的四角碼進(jìn)行編輯距離計(jì)算,得到四角碼相似度得分;
對所述錯(cuò)誤文字的筆順編碼與所述漢字庫中文字的筆順編碼進(jìn)行編輯距離計(jì)算,得到筆順相似度得分;
計(jì)算所述錯(cuò)誤文字的字向量與所述漢字庫中文字的字向量的夾角的余弦值,作為字向量相似度得分;
計(jì)算所述結(jié)構(gòu)相似度得分、所述四角碼相似度得分、所述筆順相似度得分、所述字向量相似度得分的和,作為所述相似度得分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于暢捷通信息技術(shù)股份有限公司,未經(jīng)暢捷通信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710813109.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





