[發(fā)明專利]文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202010012359.6	申請日：	2020-01-06
公開（公告）號：	CN111209865A	公開（公告）日：	2020-05-29
發(fā)明（設(shè)計）人：	劉小康;李健銓	申請（專利權(quán)）人：	中科鼎富（北京）科技發(fā)展有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04
代理公司：	北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463	代理人：	蔣姍
地址：	100089 北京市海淀區(qū)萬***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文件內(nèi)容提取方法裝置電子設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì)，屬于文字處理領(lǐng)域。該方法包括：電子設(shè)備通過獲取待提取文件；然后通過文本分割模型對所述待提取文件進行分割，得到包含文本的多個文本框；然后通過文本識別模型對每個文本框進行識別，得到每個文本框內(nèi)的文字內(nèi)容。由于文本識別模型是對每個文本框內(nèi)的內(nèi)容進行識別，可以減少位于文本框之外的干擾因素對識別準(zhǔn)確率的影響，從而可以提高整體的識別準(zhǔn)確率。

技術(shù)領(lǐng)域

本申請屬于文字處理領(lǐng)域，具體涉及一種文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)

近年來，對圖像文本的文字識別和文字理解方面的研究逐漸成為熱點。

OCR(Optical Character Recognition，光學(xué)字符識別)是文本識別最主要的方式之一，在掃描簡單的文本(例如，背景單一、排版整齊的文本)上能夠達到較高的識別準(zhǔn)確率，但由于在實際應(yīng)用場景中，待識別的文本往往較為復(fù)雜，例如文字格式多樣、存在褶皺、存在陰影等，使得將OCR應(yīng)用到實際場景中時得到的識別效果較差，因此，OCR不能滿足對文本內(nèi)容進行提取的實際需求。

發(fā)明內(nèi)容

有鑒于此，本申請的目的在于提供一種文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì)，以提供一種可以適應(yīng)于實際應(yīng)用場景的復(fù)雜性的文件內(nèi)容提取方案。

本申請的實施例是這樣實現(xiàn)的：

第一方面，本申請實施例提供一種文件內(nèi)容提取方法，所述方法包括：

獲取待提取文件；通過文本分割模型對所述待提取文件進行分割，得到包含文本的多個文本框；通過文本識別模型對每個文本框進行識別，得到每個文本框內(nèi)的文字內(nèi)容。由于文本識別模型是對每個文本框內(nèi)的內(nèi)容進行識別，可以減少位于文本框之外的干擾因素對識別準(zhǔn)確率的影響，從而可以提高整體的識別準(zhǔn)確率。

結(jié)合第一方面實施例，在一種可能的實施方式中，所述待提取文件為紅頭文件，所述紅頭文件包括紅色分隔線，所述方法還包括：從所述待提取文件中確定出用于表征紅色分隔線的位置；以所述用于表征紅色分隔線的位置為基準(zhǔn)，確定出所述紅頭文件的文件頭以及文件主體；分別輸出所述文件頭的文字內(nèi)容以及所述文件主體的文字內(nèi)容。

結(jié)合第一方面實施例，在一種可能的實施方式中，在所述得到包含文本的多個文本框之后，在所述通過文本識別模型對每個文本框進行識別之前，所述方法還包括：計算每個文本框的框線高度；將位于同一行且框線高度之差小于閾值的文本框合并為一個文本框。

結(jié)合第一方面實施例，在一種可能的實施方式中，在所述獲取待提取文件之后，在所述通過文本分割模型對所述待提取文件進行分割，得到包含文本的多個文本框之前，所述方法還包括：去除所述待提取文件中的干擾因素，得到預(yù)處理文件；

相應(yīng)的，所述通過文本分割模型對所述待提取文件進行分割，得到包含文字的多個文本框，包括：通過所述文本分割模型對所述預(yù)處理文件進行分割，得到包含文本的多個文本框。

結(jié)合第一方面實施例，在一種可能的實施方式中，所述去除所述待提取文件中的干擾因素，包括：去除所述待提取文件的預(yù)設(shè)位置的紅色內(nèi)容。

結(jié)合第一方面實施例，在一種可能的實施方式中，所述方法還包括：通過預(yù)先保存的文字糾錯模型對所述每個文本框內(nèi)的文字內(nèi)容進行糾錯。

第二方面，本申請實施例提供一種文件內(nèi)容提取裝置，所述文件內(nèi)容提取裝置包括：獲取模塊、分割模塊及識別模塊。獲取模塊，用于獲取待提取文件；分割模塊，用于通過文本分割模型對所述待提取文件進行分割，得到包含文本的多個文本框；識別模塊，用于通過文本識別模型對每個文本框進行識別，得到每個文本框內(nèi)的文字內(nèi)容。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科鼎富（北京）科技發(fā)展有限公司，未經(jīng)中科鼎富（北京）科技發(fā)展有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010012359.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種電力設(shè)備目標(biāo)識別方法
下一篇：一種顯示面板及其制備方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】