[發(fā)明專(zhuān)利]表格內(nèi)容自動(dòng)錄入方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410097831.5 | 申請(qǐng)日: | 2014-03-17 |
| 公開(kāi)(公告)號(hào): | CN103902995B | 公開(kāi)(公告)日: | 2017-11-07 |
| 發(fā)明(設(shè)計(jì))人: | 喬?hào)|江;吳晨 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安匯龍科技股份有限公司 |
| 主分類(lèi)號(hào): | G06K9/20 | 分類(lèi)號(hào): | G06K9/20 |
| 代理公司: | 北京鴻元知識(shí)產(chǎn)權(quán)代理有限公司11327 | 代理人: | 許向彤,陳英俊 |
| 地址: | 710075 陜西省西安市*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 內(nèi)容 自動(dòng) 錄入 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及圖像識(shí)別技術(shù)領(lǐng)域,具體地說(shuō),涉及一種表格內(nèi)容自動(dòng)錄入方法和裝置。
背景技術(shù)
目前,很多單位和機(jī)構(gòu)每年每月都要處理大量的表格。為了對(duì)這些表格的內(nèi)容進(jìn)行統(tǒng)計(jì)和管理,通常需要先將這些表格的內(nèi)容錄入到信息化管理系統(tǒng)中。
具體地,以發(fā)票為例進(jìn)行說(shuō)明。每種類(lèi)型的發(fā)票都具有特定的格式。一張發(fā)票通常包括多個(gè)處于預(yù)定位置處的條目,例如開(kāi)票日期、付款單位、發(fā)票代碼、發(fā)票號(hào)碼、行業(yè)類(lèi)別、機(jī)打票號(hào)、查詢(xún)碼、防偽碼、項(xiàng)目、金額、密碼區(qū)、合計(jì)(大寫(xiě))、合計(jì)(小寫(xiě))、備注、收款單位稅號(hào)、收款單位、開(kāi)票人等,在每個(gè)條目的右側(cè)或下方是與該條目對(duì)應(yīng)的留白區(qū)域,用于填充與該條目對(duì)應(yīng)的內(nèi)容,一般地,這些內(nèi)容包括文字、數(shù)字、字母等。
可以通過(guò)人工的方法將發(fā)票的內(nèi)容(包括條目以及與各條目對(duì)應(yīng)的內(nèi)容)錄入到信息化管理系統(tǒng)中,但這種方法在待處理的發(fā)票數(shù)目很多時(shí)效率較低。也可以通過(guò)自動(dòng)識(shí)別的方法將發(fā)票的內(nèi)容錄入到信息化管理系統(tǒng)中。具體說(shuō),先將內(nèi)容待錄入的發(fā)票進(jìn)行掃描,形成掃描圖像,然后對(duì)該掃描圖像進(jìn)行自動(dòng)識(shí)別,以確定并存儲(chǔ)與各個(gè)條目對(duì)應(yīng)的內(nèi)容。然而,通過(guò)自動(dòng)識(shí)別來(lái)錄入發(fā)票內(nèi)容的現(xiàn)有方法在解決下列問(wèn)題上存在不足:1)現(xiàn)有的中文識(shí)別算法的識(shí)別錯(cuò)誤率比較高,特別是在背景干擾(例如印章殘跡、污斑、發(fā)票品相所引起的干擾)比較大的情形中;2)在很多情形中,發(fā)票的內(nèi)容是通過(guò)打印機(jī)打印出來(lái)的,在打印時(shí),打印的發(fā)票內(nèi)容會(huì)發(fā)生錯(cuò)位,偏離其應(yīng)在的位置(即偏離其應(yīng)該填入的留白區(qū)域),從而增大其識(shí)別難度并降低其識(shí)別精確度。
發(fā)明內(nèi)容
本發(fā)明就是為了解決上述現(xiàn)有技術(shù)中存在的問(wèn)題而做出的,其目的在于提供一種表格內(nèi)容自動(dòng)錄入方法和裝置,以克服表格內(nèi)容自動(dòng)錄入過(guò)程中表格背景對(duì)表格內(nèi)容識(shí)別的干擾以及表格內(nèi)容錯(cuò)位對(duì)表格內(nèi)容識(shí)別的影響,從而提高表格內(nèi)容自動(dòng)錄入的準(zhǔn)確性。
為了實(shí)現(xiàn)上述目的,在本發(fā)明的一個(gè)方面,提供一種表格內(nèi)容自動(dòng)錄入方法,該方法包括:a)對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,并根據(jù)空白表格掃描圖像數(shù)據(jù)庫(kù)中的空白表格掃描圖像的類(lèi)型識(shí)別特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類(lèi)型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像;b)將所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像對(duì)齊,求得該兩個(gè)掃描圖像的差值圖像,并根據(jù)該空白表格掃描圖像中預(yù)先標(biāo)定的表格條目留白區(qū)域的原始位置在該差值圖像中標(biāo)定表格條目留白區(qū)域的原始位置;c)計(jì)算所述差值圖像中的所有表格條目留白區(qū)域的公共外部像素的像素值之和,并通過(guò)所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)來(lái)確定所述公共外部像素的像素值之和最小時(shí)所述表格條目留白區(qū)域所在的匹配位置;d)對(duì)處于匹配位置處的每個(gè)表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行自動(dòng)識(shí)別,并將識(shí)別結(jié)果與該表格條目留白區(qū)域所對(duì)應(yīng)的表格條目關(guān)聯(lián)地存儲(chǔ)起來(lái)。
其中,步驟a)中對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類(lèi)型識(shí)別的方式可以包括自動(dòng)識(shí)別或人工識(shí)別或二者的結(jié)合。
優(yōu)選地,求得所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像的差值圖像的步驟可以包括:求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,并以該差值作為所述差值圖像的相應(yīng)像素的像素值。或者,優(yōu)選地,求得所述內(nèi)容待錄入表格的掃描圖像與其所對(duì)應(yīng)的空白表格掃描圖像的差值圖像的步驟可以包括:求出對(duì)齊后的該兩個(gè)掃描圖像的對(duì)應(yīng)像素的像素值的差值,如果該差值小于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為0,如果該差值大于第一閾值,則所述差值圖像的相應(yīng)像素的像素值為1。
另外,優(yōu)選地,所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)可以包括:所述差值圖像中的所有表格條目留白區(qū)域相對(duì)于該差值圖像的整體平移和轉(zhuǎn)動(dòng)。進(jìn)一步優(yōu)選地,所述差值圖像中的表格條目留白區(qū)域相對(duì)于該差值圖像的平移和轉(zhuǎn)動(dòng)還可以包括:所述差值圖像中的每個(gè)表格條目留白區(qū)域相對(duì)于該差值圖像的單獨(dú)平移和轉(zhuǎn)動(dòng)。
如果步驟d)中的識(shí)別結(jié)果為不可識(shí)別,則該方法還可以包括對(duì)該表格條目留白區(qū)域中的表格內(nèi)容進(jìn)行人工錄入。
根據(jù)本發(fā)明的另一方面,提供一種表格內(nèi)容自動(dòng)錄入裝置,該裝置包括:掃描成像單元、識(shí)別單元、差值圖像形成單元、計(jì)算單元、表格條目留白區(qū)域匹配單元、存儲(chǔ)單元,其中,
所述掃描成像單元對(duì)內(nèi)容待錄入表格進(jìn)行掃描以形成該表格的掃描圖像,所述識(shí)別單元根據(jù)空白表格掃描圖像數(shù)據(jù)庫(kù)中的空白表格掃描圖像的特征對(duì)所述內(nèi)容待錄入表格的掃描圖像進(jìn)行類(lèi)型識(shí)別以確定所述內(nèi)容待錄入表格的掃描圖像所對(duì)應(yīng)的空白表格掃描圖像;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安匯龍科技股份有限公司,未經(jīng)西安匯龍科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410097831.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動(dòng)端展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端縱向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端橫向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種針對(duì)PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動(dòng)生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲(chǔ)介質(zhì)
- 表格渲染顯示方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 藍(lán)牙信息錄入設(shè)備、錄入系統(tǒng)及錄入方法
- 一種原筆跡手寫(xiě)錄入方法和系統(tǒng)
- 藍(lán)牙信息錄入設(shè)備、錄入系統(tǒng)及錄入方法
- 數(shù)據(jù)錄入系統(tǒng)、數(shù)據(jù)錄入方法以及數(shù)據(jù)錄入裝置
- 錄入方法及錄入系統(tǒng)
- 智慧校園系統(tǒng)的信息錄入方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 指紋底庫(kù)錄入方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種肺癌患者隨訪(fǎng)系統(tǒng)
- 一種爆破施工填報(bào)系統(tǒng)及方法
- 數(shù)據(jù)錄入方法及裝置、設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





