[發(fā)明專利]大票據(jù)圖片文字識別方法有效
| 申請?zhí)枺?/td> | 201711403971.0 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN109977723B | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計)人: | 詹智財;羅陽;周鵬程;代穩(wěn) | 申請(專利權(quán))人: | 蘇寧云商集團股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06Q40/00 |
| 代理公司: | 北京市萬慧達律師事務(wù)所 11111 | 代理人: | 黃玉東 |
| 地址: | 210042 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 票據(jù) 圖片 文字 識別 方法 | ||
本發(fā)明屬于模式識別與人工智能技術(shù)領(lǐng)域,公開了一種大票據(jù)圖片文字識別方法,所述方法包括:所述方法包括:將紙質(zhì)票據(jù)轉(zhuǎn)化為圖片格式;對形成為圖片格式的票據(jù)進行圖像預(yù)處理;對預(yù)處理后的票據(jù)圖片進行區(qū)域分割,得到該票據(jù)圖片的多個圖片塊;對票據(jù)圖片的多個圖片塊進行文本行區(qū)域的目標檢測;對多個圖片塊中獲取的各文本行區(qū)域進行融合,得到完整的文本行區(qū)域;獲取票據(jù)圖片中完整的文本行區(qū)域,進行圖片文字轉(zhuǎn)計算機文字;基于不同紙質(zhì)票據(jù)的需求,給出特定區(qū)域的計算機文字結(jié)果。本發(fā)明解決了原有的票據(jù)識別耗時較長、易出錯且識別過程復(fù)雜的問題。
技術(shù)領(lǐng)域
本發(fā)明屬于模式識別與人工智能技術(shù)領(lǐng)域,尤其是涉及一種大票據(jù)圖片文字識別方法。
背景技術(shù)
隨著企業(yè)的不斷壯大以及企業(yè)流水的日益增長,企業(yè)票據(jù)數(shù)量也在不斷增多,其中涉及到供應(yīng)商開出的票據(jù),企業(yè)員工出差需要報銷的票據(jù)等等。而面對成千上萬的企業(yè)票據(jù),如何基于計算機技術(shù),快速且高效的進行企業(yè)票據(jù)的自動識別成了大家關(guān)心的熱點。現(xiàn)有處理企業(yè)紙質(zhì)票據(jù)有以下幾種方式:(1)通過招募對應(yīng)崗位的人員,在基于人工肉眼識別基礎(chǔ)上,開發(fā)一定的錄入系統(tǒng),通過人工的方式對票據(jù)所需要錄入的信息進行手工錄入和后續(xù)操作;(2)基于數(shù)字圖像處理的方法,通過對紙質(zhì)票據(jù)的圖片進行預(yù)先分析,采用模版的方法對票據(jù)的固定區(qū)域進行操作,如圖像二值化,前背景分離,前景輪廓提取,然后采用模式識別方法如圖片文字分類,或者現(xiàn)有成熟的光學(xué)字符識別庫,如谷歌維護的tesseract等對檢測到的圖片文字轉(zhuǎn)換成計算機文字。
但是,上述方法都有著較為嚴重的缺陷:對于方法(1)來說,該方法不適用大規(guī)模票據(jù)的自動處理,且人工容易疲勞,隨著人工工作時間的變長,疲勞會導(dǎo)致無論是票據(jù)處理的數(shù)量還是質(zhì)量都會有所下降;對于方法(2)來說,這種方法雖然解決了方法(1)中的數(shù)量問題,然而基于不同類型的紙質(zhì)票據(jù),需要編寫不同的模版處理流程,對于程序的開發(fā)以及后續(xù)維護問題較大,且基于傳統(tǒng)的數(shù)字圖像處理方法對圖片本身包含的光照,字符清晰程度等屬性有著非常嚴格的限制,并且針對圖片本身大小也有一定的限制。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的上述缺陷,本發(fā)明的目的是提供一種大票據(jù)圖片文字識別方法,以解決原有的票據(jù)識別耗時較長、易出錯且識別過程復(fù)雜的問題。
本發(fā)明采用的技術(shù)方案如下:
一種大票據(jù)圖片文字識別方法,所述方法包括:
S1、對紙質(zhì)票據(jù)進行掃描,獲取紙質(zhì)票據(jù)圖片;
S2、對紙質(zhì)票據(jù)圖片進行圖像預(yù)處理;
S3、對圖像預(yù)處理后的紙質(zhì)票據(jù)圖片進行區(qū)域分割,得到該紙質(zhì)票據(jù)圖片的多個圖片塊;
S4、對紙質(zhì)票據(jù)圖片的多個圖片塊進行文本行區(qū)域的目標檢測;
S5、對多個圖片塊中獲取的文本行區(qū)域進行融合,得到完整的文本行區(qū)域;
S6、獲取紙質(zhì)票據(jù)圖片中完整的文本行區(qū)域,進行圖片文字轉(zhuǎn)計算機文字;
S7、基于不同紙質(zhì)票據(jù)的需求,給出特定區(qū)域的計算機文字結(jié)果。
進一步的,在上述步驟S1中,對票據(jù)進行掃描的具體過程為:
基于字跡清晰,文字之間沒有重疊的紙質(zhì)票據(jù)基礎(chǔ)上,設(shè)置掃描儀的dpi為300,并且正面對齊不要旋轉(zhuǎn),掃描出來的圖片為I,其中I∈[0,255]H×W×3,是一個高度為H,寬度為W的3通道RGB圖片,其中每個像素點取值為[0,255]。
進一步的,在獲取紙質(zhì)票據(jù)圖片的基礎(chǔ)上,對圖片進行一定程度的圖像預(yù)處理,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇寧云商集團股份有限公司,未經(jīng)蘇寧云商集團股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711403971.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種可轉(zhuǎn)動的電子支付裝置
- 下一篇:一種水下目標分類方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





