[發(fā)明專(zhuān)利]一種文字識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201911177163.6 | 申請(qǐng)日: | 2019-11-26 |
| 公開(kāi)(公告)號(hào): | CN111046754B | 公開(kāi)(公告)日: | 2023-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 馬文偉;劉設(shè)偉;沈程秀;閆永澤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 泰康保險(xiǎn)集團(tuán)股份有限公司;泰康在線財(cái)產(chǎn)保險(xiǎn)股份有限公司 |
| 主分類(lèi)號(hào): | G06V30/414 | 分類(lèi)號(hào): | G06V30/414;G06V30/416;G06V30/42;G06V30/148;G06V30/162 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100031 北京市西*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文字 識(shí)別 方法 裝置 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種文字識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法包括:對(duì)待識(shí)別的橢圓形印章圖像進(jìn)行二值化處理,得到二值圖像;檢測(cè)二值圖像中位于同一條直線上的第一文字序列;根據(jù)二值圖像中的文字的連線所組成的第一橢圓與第一文字序列的位置關(guān)系,從第一文字序列中確定呈直線型分布的文字序列;分別對(duì)呈直線型分布的文字序列、呈彎曲型分布的文字序列中的文字進(jìn)行識(shí)別,呈彎曲型分布的文字序列包括呈直線型分布的文字序列之外的文字。在上述方法中,首先檢測(cè)出直線型文字序列,剩下的文字組成彎曲型文字序列,由此可輕松確定出彎曲型文字序列;并且,本方案中對(duì)文字可以有效地按照語(yǔ)義順序進(jìn)行提取,降低了文字識(shí)別難度。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理領(lǐng)域,特別是涉及一種文字識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
日常生活中增值稅發(fā)票、醫(yī)療收費(fèi)票據(jù)等票據(jù)均需蓋有印章,才能用于報(bào)銷(xiāo)流程,它是開(kāi)票單位授權(quán)的證明。印章中一般刻有企業(yè)名稱(chēng)、印章類(lèi)型以及印章編號(hào)等信息,一般包含兩種類(lèi)型文字行:彎曲型文字行、直線型文字行。其中彎曲型文字行一般代表企業(yè)名稱(chēng),直線型文字行一般表示印章類(lèi)型、印章編號(hào)等。例如,在某醫(yī)療門(mén)診收費(fèi)票據(jù)示意圖中,印章圖像中彎曲型文字行內(nèi)容為“**市東方醫(yī)院”、直線型文字行內(nèi)容分別為“門(mén)急診收費(fèi)章”和“(44)”。
雖然OCR(Optical?Character?Recognition,光學(xué)字符識(shí)別)技術(shù)已經(jīng)相當(dāng)成熟并應(yīng)用在多個(gè)領(lǐng)域,例如醫(yī)院化驗(yàn)單、個(gè)人體檢單等識(shí)別,但醫(yī)療收費(fèi)票據(jù)依然是OCR技術(shù)難以覆蓋的領(lǐng)域。多個(gè)省或直轄市的眾多醫(yī)療收費(fèi)票據(jù)中沒(méi)有直接機(jī)打“醫(yī)院名稱(chēng)”這一關(guān)鍵信息,而是以印章文字的形式出現(xiàn),因此印章文字的檢測(cè)與識(shí)別至關(guān)重要。
但是,目前票據(jù)圖像中的橢圓形印章文字檢測(cè)仍然存在困難,原因主要在于:橢圓形印章圖像文字排列復(fù)雜,既有直線型文字也有彎曲型文字,使印章文字難以有效按語(yǔ)義順序提取,造成文字識(shí)別難度加大;并且,現(xiàn)有的文字識(shí)別技術(shù)在橢圓形印章圖像識(shí)別時(shí)容易把彎曲型文字和直線型文字交接的地方檢測(cè)成一行,造成識(shí)別結(jié)果準(zhǔn)確度較低;此外,對(duì)于橢圓形印章來(lái)說(shuō),其長(zhǎng)軸和短軸的長(zhǎng)度不相等,這對(duì)檢測(cè)橢圓形印章圖像中的彎曲型文字帶來(lái)一定困難。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種文字識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),在一定程度上解決了目前的橢圓形印章文字識(shí)別難度較大、識(shí)別結(jié)果準(zhǔn)確度較低、彎曲型文字檢測(cè)困難的問(wèn)題。
依據(jù)本發(fā)明的第一方面,提供了一種文字識(shí)別方法,所述方法包括:
對(duì)待識(shí)別的橢圓形印章圖像進(jìn)行二值化處理,得到二值圖像;
檢測(cè)所述二值圖像中位于同一條直線上的第一文字序列;
根據(jù)所述二值圖像中的文字的連線所組成的第一橢圓與所述第一文字序列的位置關(guān)系,從所述第一文字序列中確定呈直線型分布的文字序列;
分別對(duì)所述呈直線型分布的文字序列、呈彎曲型分布的文字序列中的文字進(jìn)行識(shí)別,所述呈彎曲型分布的文字序列包括所述呈直線型分布的文字序列之外的文字。
可選地,所述根據(jù)所述二值圖像中的文字的連線所組成的第一橢圓與所述第一文字序列的位置關(guān)系,從所述第一文字序列中確定呈直線型分布的文字序列,包括:
將所述二值圖像中的文字進(jìn)行區(qū)域連通,得到多個(gè)連通區(qū)域;
確定所述多個(gè)連通區(qū)域的中心點(diǎn),并根據(jù)所述中心點(diǎn)的連線確定第一橢圓;
若所述第一橢圓與所述第一文字序列存在交叉點(diǎn),則將位于所述交叉點(diǎn)的文字從所述第一文字序列中去除,得到呈直線型分布的文字序列;
若所述第一橢圓與所述第一文字序列不存在交叉點(diǎn),則將所述第一文字序列確定為呈直線型分布的文字序列。
可選地,在分別對(duì)所述呈直線型分布的文字序列、呈彎曲型分布的文字序列中的文字進(jìn)行識(shí)別之前,還包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于泰康保險(xiǎn)集團(tuán)股份有限公司;泰康在線財(cái)產(chǎn)保險(xiǎn)股份有限公司,未經(jīng)泰康保險(xiǎn)集團(tuán)股份有限公司;泰康在線財(cái)產(chǎn)保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911177163.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





