[發(fā)明專利]一種基于OCR文字識別提取公文要素的方法及裝置有效
| 申請?zhí)枺?/td> | 202011015420.9 | 申請日: | 2020-09-24 |
| 公開(公告)號: | CN112149679B | 公開(公告)日: | 2022-09-23 |
| 發(fā)明(設(shè)計)人: | 張朝壹;李志芳;侯文君;鄧倩楠;李旭明;陳毅彬 | 申請(專利權(quán))人: | 北京中宏立達(dá)信創(chuàng)科技有限公司;北京中宏立達(dá)科技發(fā)展有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148 |
| 代理公司: | 北京天達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11386 | 代理人: | 龔頤雯 |
| 地址: | 100048 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 ocr 文字 識別 提取 公文 要素 方法 裝置 | ||
本發(fā)明涉及一種基于OCR文字識別提取公文要素的方法及裝置,屬于文件智能處理技術(shù)領(lǐng)域,解決了現(xiàn)有的方法浪費(fèi)人力和時間且效率較低的問題。方法包括:掃描包含公文要素信息的紙質(zhì)公文文件,得到電子公文文件;基于電子公文文件動態(tài)生成算法選擇框,基于算法選擇框獲取相應(yīng)的算法;基于算法獲取電子公文文件中的公文要素信息;將獲取的公文要素信息保存至業(yè)務(wù)信息處理系統(tǒng)中公文要素表單的相應(yīng)字段位置。簡單易行,易于實(shí)施,實(shí)現(xiàn)了公文要素的快速提取,節(jié)省了人力和成本,提高了效率。
技術(shù)領(lǐng)域
本發(fā)明涉及文件智能處理技術(shù)領(lǐng)域,尤其涉及一種基于OCR文字識別提取公文要素的方法及裝置。
背景技術(shù)
目前,傳統(tǒng)的收發(fā)文主要是通過掃描儀將文件掃描成電子檔,再上傳到相關(guān)信息系統(tǒng)進(jìn)行文件辦理,而在文件辦理過程中經(jīng)常需要提取文件中的公文要素,而目前辦公業(yè)務(wù)中公文要素識別主要是以人工方式為主,通過人為識別文件中的公文要素,并將公文內(nèi)容要素手動輸入業(yè)務(wù)信息處理系統(tǒng)中。
人為別公文要素并手動輸入業(yè)務(wù)信息處理系統(tǒng)中,這種方式工作量大,而且容易出錯,重復(fù)性工作高,若處理的文件業(yè)務(wù)量增大,所耗費(fèi)的人力和時間成本是巨大的。對公文內(nèi)容,特別公文要素信息要求準(zhǔn)確率很高,因此,不能有半點(diǎn)的信息錄入錯誤情況出現(xiàn)。
發(fā)明內(nèi)容
鑒于上述的分析,本發(fā)明實(shí)施例旨在提供一種基于OCR文字識別提取公文要素的方法及裝置,用以解決現(xiàn)有的方法浪費(fèi)人力和時間且效率較低的問題。
一方面,本發(fā)明實(shí)施例提供了一種基于OCR文字識別提取公文要素的方法,包括如下步驟:
掃描包含公文要素信息的紙質(zhì)公文文件,得到電子公文文件;
基于所述電子公文文件動態(tài)生成算法選擇框,基于所述算法選擇框獲取相應(yīng)的算法;基于所述算法獲取電子公文文件中的公文要素信息;
將獲取的所述公文要素信息保存至業(yè)務(wù)信息處理系統(tǒng)中公文要素表單的相應(yīng)字段位置。
進(jìn)一步,所述算法包括坐標(biāo)區(qū)域定位法和文本規(guī)則定位法;所述基于所述算法獲取電子公文文件中的公文要素,包括:
基于獲取的所述坐標(biāo)區(qū)域定位法動態(tài)生成坐標(biāo)區(qū)域定位模板規(guī)則選擇框,基于所述坐標(biāo)區(qū)域定位模板規(guī)則選擇框獲取相應(yīng)的坐標(biāo)區(qū)域定位模板規(guī)則,并根據(jù)所述坐標(biāo)區(qū)域定位模板規(guī)則獲取電子公文文件中的公文要素;或者,
基于獲取的所述文本規(guī)則定位法動態(tài)生成文本模板規(guī)則選擇框,基于所述文本模板規(guī)則選擇框獲取相應(yīng)的文本模板規(guī)則,并根據(jù)所述文本模板規(guī)則獲取電子公文文件中的公文要素。
進(jìn)一步,通過下述方式獲得所述坐標(biāo)區(qū)域定位模板規(guī)則:
掃描紙質(zhì)公文模板,得到對應(yīng)的多種電子公文模板;其中,所述紙質(zhì)公文模板為多種不同類別的紙質(zhì)公文;
選取每一所述電子公文模板中包含公文要素的矩形區(qū)域,并采用OCR技術(shù)提取所述矩形區(qū)域中所有公文要素的坐標(biāo)范圍值、頁號和字體信息;
基于每一所述電子公文模板中所有公文要素的坐標(biāo)范圍值、頁號和字體信息,得到多種坐標(biāo)區(qū)域定位模板規(guī)則,并將所述坐標(biāo)區(qū)域定位模板規(guī)則保存至數(shù)據(jù)庫。
進(jìn)一步,通過下述方式獲得所述文本模板規(guī)則:
基于每一紙質(zhì)公文模板,得到公文要素提取規(guī)則;
基于所述公文要素的提取規(guī)則生成文本模板規(guī)則,并將所述文本模板規(guī)則保存至數(shù)據(jù)庫。
進(jìn)一步,所述公文要素包括主送、標(biāo)題、密級、主題詞、抄送、簽發(fā)、承辦單位、聯(lián)系人和聯(lián)系電話;其中,所述公文要素的提取規(guī)則包括:
基于電子公文文件中第一個含有“:”結(jié)尾的段落,獲取“主送”要素;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中宏立達(dá)信創(chuàng)科技有限公司;北京中宏立達(dá)科技發(fā)展有限公司,未經(jīng)北京中宏立達(dá)信創(chuàng)科技有限公司;北京中宏立達(dá)科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011015420.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- OCR文檔識別方法及其裝置
- 智能調(diào)度多OCR識別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識別方法、裝置和終端
- OCR識別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計算機(jī)設(shè)備及存儲介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)





