[發(fā)明專(zhuān)利]一種基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010210522.X | 申請(qǐng)日: | 2020-03-24 |
| 公開(kāi)(公告)號(hào): | CN111401354B | 公開(kāi)(公告)日: | 2023-07-11 |
| 發(fā)明(設(shè)計(jì))人: | 田博帆 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京紅松信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06V30/14 | 分類(lèi)號(hào): | G06V30/14;G06V30/148;G06V30/18;G06N3/0464;G06V10/82;G06N3/08 |
| 代理公司: | 南京正聯(lián)知識(shí)產(chǎn)權(quán)代理有限公司 32243 | 代理人: | 顧伯興 |
| 地址: | 210022 江蘇省南京*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 端到端 自適應(yīng) 垂直 粘連 字符 識(shí)別 方法 | ||
本發(fā)明涉及一種基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法,包括以下步驟:(1)字符定位:通過(guò)手印分離對(duì)圖片的答案區(qū)字符進(jìn)行連通域定位;(2)字符篩選:將定位坐標(biāo)與答案區(qū)的文本行的高度作比較判斷并篩選出垂直方向包含有至少兩個(gè)字符的坐標(biāo)框,并截取待選擇的包含粘連字符的答案圖片;(3)大小轉(zhuǎn)換:將截取到的待選擇的包含粘連字符的答案圖片作大小統(tǒng)一處理;(4)特征提取:采用卷積神經(jīng)網(wǎng)絡(luò)CNN按縱坐標(biāo)Y軸方向從上往下依次提取得到粘連字符的縱向特征圖,并將縱向特征圖進(jìn)行序列化得到時(shí)序關(guān)聯(lián)特征序列;(5)字符識(shí)別:將時(shí)序關(guān)聯(lián)特征序列輸送至softmax層中作多字符的計(jì)算分類(lèi)并輸出結(jié)果,完成垂直粘連字符的識(shí)別。
技術(shù)領(lǐng)域
本發(fā)明涉及文本OCR技術(shù)領(lǐng)域,尤其涉及一種基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法。
背景技術(shù)
隨著文字OCR技術(shù)的漸趨成熟,各類(lèi)自動(dòng)化批閱產(chǎn)品應(yīng)運(yùn)而生。技術(shù)走向多元化,開(kāi)始出現(xiàn)了融入和替代的極端趨勢(shì),傳統(tǒng)OCR技術(shù)在面臨實(shí)際問(wèn)題時(shí)逐漸表現(xiàn)出更多的不足,慢慢進(jìn)入了瓶頸期。而人工智能技術(shù)的興起,在文字OCR領(lǐng)域,不僅表現(xiàn)出超凡的識(shí)別能力,強(qiáng)勁的發(fā)展勢(shì)頭,并突破了各種傳統(tǒng)OCR的技術(shù)壁壘,得到廣泛使用。
在文字OCR方面,尤其是手寫(xiě)體文字的書(shū)寫(xiě)形式較為自由,字體形態(tài)萬(wàn)千,因人而異。手寫(xiě)的文字經(jīng)常性地出現(xiàn)上下左右粘連的情況發(fā)生,僅憑字符定位分割方法難以保證字符的完整性。如學(xué)生在卷面上作答時(shí)由于答案區(qū)范圍受限,導(dǎo)致書(shū)寫(xiě)的字符粘連、超出作答區(qū)等情形出現(xiàn)。這會(huì)致使答案定位時(shí)面臨嚴(yán)重問(wèn)題,甚至無(wú)法準(zhǔn)確定位學(xué)生的答案,最終無(wú)法正確識(shí)別。端到端的OCR識(shí)別方式使粘連字符的識(shí)別成為可能,并逐漸應(yīng)用于復(fù)雜多變的手寫(xiě)文字識(shí)別中,但對(duì)于垂直方向的字符識(shí)別很少涉及,但仍適用于實(shí)際變化的需要。
為了能夠準(zhǔn)確定位答案,本申請(qǐng)?zhí)岢鲆环N基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法,用于解決垂直粘連字符的識(shí)別,達(dá)到準(zhǔn)確識(shí)別的目的。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是,提供一種基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法,解決了垂直粘連字符的識(shí)別,提高了識(shí)別的準(zhǔn)確率,實(shí)現(xiàn)準(zhǔn)確識(shí)別的目的。
為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是:該基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法,具體包括以下步驟:
(1)字符定位:通過(guò)手印分離對(duì)圖片的答案區(qū)字符進(jìn)行連通域定位,得到所述圖片的答案區(qū)內(nèi)的每個(gè)字符的定位坐標(biāo);
(2)字符篩選:根據(jù)所述步驟(1)得到的所述定位坐標(biāo)與所述答案區(qū)的文本行的高度作比較,判斷并篩選出垂直方向包含有至少兩個(gè)字符的坐標(biāo)框,并截取待選擇的包含粘連字符的答案圖片;
(3)大小轉(zhuǎn)換:將截取到的待選擇的包含粘連字符的答案圖片作大小統(tǒng)一處理,將所述包含粘連字符的答案圖片的大小轉(zhuǎn)換為一致;
(4)特征提取:采用卷積神經(jīng)網(wǎng)絡(luò)CNN,按縱坐標(biāo)Y軸方向從上往下依次提取得到粘連字符的縱向特征圖,并將所述縱向特征圖進(jìn)行序列化得到時(shí)序關(guān)聯(lián)特征序列;
(5)字符識(shí)別:將所述步驟(4)得到的粘連字符的所述時(shí)序關(guān)聯(lián)特征序列,記作:Xi={x1,x2,x3,,xi-1,xi}(i≤n),輸送至softmax層中作多字符的計(jì)算分類(lèi)并根據(jù)最大的概率輸出其結(jié)果,最終完成垂直粘連字符的識(shí)別。解決了垂直粘連字符的識(shí)別,提高了識(shí)別的準(zhǔn)確率,實(shí)現(xiàn)準(zhǔn)確識(shí)別的目的。
采用上述技術(shù)方案,該基于端到端自適應(yīng)的垂直粘連字符的識(shí)別方法,采用端到端的特征提取和分類(lèi)方法,將特征序列的傳送方向由橫向X軸方向轉(zhuǎn)為縱向Y軸方向進(jìn)行預(yù)測(cè)輸出,達(dá)到垂直粘連字符識(shí)別的目的。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京紅松信息技術(shù)有限公司,未經(jīng)南京紅松信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010210522.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無(wú)損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹(shù)木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





