[發(fā)明專利]一種基于OCR文字識別提取公文要素的方法及裝置有效

申請?zhí)枺?/td>	202011015420.9	申請日：	2020-09-24
公開（公告）號：	CN112149679B	公開（公告）日：	2022-09-23
發(fā)明（設(shè)計）人：	張朝壹;李志芳;侯文君;鄧倩楠;李旭明;陳毅彬	申請（專利權(quán)）人：	北京中宏立達(dá)信創(chuàng)科技有限公司;北京中宏立達(dá)科技發(fā)展有限公司
主分類號：	G06V30/148	分類號：	G06V30/148
代理公司：	北京天達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11386	代理人：	龔頤雯
地址：	100048 北京市海淀區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 ocr 文字識別提取公文要素方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種基于OCR文字識別提取公文要素的方法及裝置，屬于文件智能處理技術(shù)領(lǐng)域，解決了現(xiàn)有的方法浪費(fèi)人力和時間且效率較低的問題。方法包括：掃描包含公文要素信息的紙質(zhì)公文文件，得到電子公文文件；基于電子公文文件動態(tài)生成算法選擇框，基于算法選擇框獲取相應(yīng)的算法；基于算法獲取電子公文文件中的公文要素信息；將獲取的公文要素信息保存至業(yè)務(wù)信息處理系統(tǒng)中公文要素表單的相應(yīng)字段位置。簡單易行，易于實(shí)施，實(shí)現(xiàn)了公文要素的快速提取，節(jié)省了人力和成本，提高了效率。

技術(shù)領(lǐng)域

本發(fā)明涉及文件智能處理技術(shù)領(lǐng)域，尤其涉及一種基于OCR文字識別提取公文要素的方法及裝置。

背景技術(shù)

目前，傳統(tǒng)的收發(fā)文主要是通過掃描儀將文件掃描成電子檔，再上傳到相關(guān)信息系統(tǒng)進(jìn)行文件辦理，而在文件辦理過程中經(jīng)常需要提取文件中的公文要素，而目前辦公業(yè)務(wù)中公文要素識別主要是以人工方式為主，通過人為識別文件中的公文要素，并將公文內(nèi)容要素手動輸入業(yè)務(wù)信息處理系統(tǒng)中。

人為別公文要素并手動輸入業(yè)務(wù)信息處理系統(tǒng)中，這種方式工作量大，而且容易出錯，重復(fù)性工作高，若處理的文件業(yè)務(wù)量增大，所耗費(fèi)的人力和時間成本是巨大的。對公文內(nèi)容，特別公文要素信息要求準(zhǔn)確率很高，因此，不能有半點(diǎn)的信息錄入錯誤情況出現(xiàn)。

發(fā)明內(nèi)容

鑒于上述的分析，本發(fā)明實(shí)施例旨在提供一種基于OCR文字識別提取公文要素的方法及裝置，用以解決現(xiàn)有的方法浪費(fèi)人力和時間且效率較低的問題。

一方面，本發(fā)明實(shí)施例提供了一種基于OCR文字識別提取公文要素的方法，包括如下步驟：

掃描包含公文要素信息的紙質(zhì)公文文件，得到電子公文文件；

基于所述電子公文文件動態(tài)生成算法選擇框，基于所述算法選擇框獲取相應(yīng)的算法；基于所述算法獲取電子公文文件中的公文要素信息；

將獲取的所述公文要素信息保存至業(yè)務(wù)信息處理系統(tǒng)中公文要素表單的相應(yīng)字段位置。

進(jìn)一步，所述算法包括坐標(biāo)區(qū)域定位法和文本規(guī)則定位法；所述基于所述算法獲取電子公文文件中的公文要素，包括：

基于獲取的所述坐標(biāo)區(qū)域定位法動態(tài)生成坐標(biāo)區(qū)域定位模板規(guī)則選擇框，基于所述坐標(biāo)區(qū)域定位模板規(guī)則選擇框獲取相應(yīng)的坐標(biāo)區(qū)域定位模板規(guī)則，并根據(jù)所述坐標(biāo)區(qū)域定位模板規(guī)則獲取電子公文文件中的公文要素；或者，

基于獲取的所述文本規(guī)則定位法動態(tài)生成文本模板規(guī)則選擇框，基于所述文本模板規(guī)則選擇框獲取相應(yīng)的文本模板規(guī)則，并根據(jù)所述文本模板規(guī)則獲取電子公文文件中的公文要素。

進(jìn)一步，通過下述方式獲得所述坐標(biāo)區(qū)域定位模板規(guī)則：

掃描紙質(zhì)公文模板，得到對應(yīng)的多種電子公文模板；其中，所述紙質(zhì)公文模板為多種不同類別的紙質(zhì)公文；

選取每一所述電子公文模板中包含公文要素的矩形區(qū)域，并采用OCR技術(shù)提取所述矩形區(qū)域中所有公文要素的坐標(biāo)范圍值、頁號和字體信息；

基于每一所述電子公文模板中所有公文要素的坐標(biāo)范圍值、頁號和字體信息，得到多種坐標(biāo)區(qū)域定位模板規(guī)則，并將所述坐標(biāo)區(qū)域定位模板規(guī)則保存至數(shù)據(jù)庫。

進(jìn)一步，通過下述方式獲得所述文本模板規(guī)則：

基于每一紙質(zhì)公文模板，得到公文要素提取規(guī)則；

基于所述公文要素的提取規(guī)則生成文本模板規(guī)則，并將所述文本模板規(guī)則保存至數(shù)據(jù)庫。

進(jìn)一步，所述公文要素包括主送、標(biāo)題、密級、主題詞、抄送、簽發(fā)、承辦單位、聯(lián)系人和聯(lián)系電話；其中，所述公文要素的提取規(guī)則包括：

基于電子公文文件中第一個含有“：”結(jié)尾的段落，獲取“主送”要素；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中宏立達(dá)信創(chuàng)科技有限公司;北京中宏立達(dá)科技發(fā)展有限公司，未經(jīng)北京中宏立達(dá)信創(chuàng)科技有限公司;北京中宏立達(dá)科技發(fā)展有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011015420.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】