[發(fā)明專利]文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010012359.6 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111209865A | 公開(公告)日: | 2020-05-29 |
| 發(fā)明(設(shè)計)人: | 劉小康;李健銓 | 申請(專利權(quán))人: | 中科鼎富(北京)科技發(fā)展有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 100089 北京市海淀區(qū)萬*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文件 內(nèi)容 提取 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明涉及一種文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì),屬于文字處理領(lǐng)域。該方法包括:電子設(shè)備通過獲取待提取文件;然后通過文本分割模型對所述待提取文件進行分割,得到包含文本的多個文本框;然后通過文本識別模型對每個文本框進行識別,得到每個文本框內(nèi)的文字內(nèi)容。由于文本識別模型是對每個文本框內(nèi)的內(nèi)容進行識別,可以減少位于文本框之外的干擾因素對識別準(zhǔn)確率的影響,從而可以提高整體的識別準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請屬于文字處理領(lǐng)域,具體涉及一種文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
近年來,對圖像文本的文字識別和文字理解方面的研究逐漸成為熱點。
OCR(Optical Character Recognition,光學(xué)字符識別)是文本識別最主要的方式之一,在掃描簡單的文本(例如,背景單一、排版整齊的文本)上能夠達到較高的識別準(zhǔn)確率,但由于在實際應(yīng)用場景中,待識別的文本往往較為復(fù)雜,例如文字格式多樣、存在褶皺、存在陰影等,使得將OCR應(yīng)用到實際場景中時得到的識別效果較差,因此,OCR不能滿足對文本內(nèi)容進行提取的實際需求。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種文件內(nèi)容提取方法、裝置、電子設(shè)備及存儲介質(zhì),以提供一種可以適應(yīng)于實際應(yīng)用場景的復(fù)雜性的文件內(nèi)容提取方案。
本申請的實施例是這樣實現(xiàn)的:
第一方面,本申請實施例提供一種文件內(nèi)容提取方法,所述方法包括:
獲取待提取文件;通過文本分割模型對所述待提取文件進行分割,得到包含文本的多個文本框;通過文本識別模型對每個文本框進行識別,得到每個文本框內(nèi)的文字內(nèi)容。由于文本識別模型是對每個文本框內(nèi)的內(nèi)容進行識別,可以減少位于文本框之外的干擾因素對識別準(zhǔn)確率的影響,從而可以提高整體的識別準(zhǔn)確率。
結(jié)合第一方面實施例,在一種可能的實施方式中,所述待提取文件為紅頭文件,所述紅頭文件包括紅色分隔線,所述方法還包括:從所述待提取文件中確定出用于表征紅色分隔線的位置;以所述用于表征紅色分隔線的位置為基準(zhǔn),確定出所述紅頭文件的文件頭以及文件主體;分別輸出所述文件頭的文字內(nèi)容以及所述文件主體的文字內(nèi)容。
結(jié)合第一方面實施例,在一種可能的實施方式中,在所述得到包含文本的多個文本框之后,在所述通過文本識別模型對每個文本框進行識別之前,所述方法還包括:計算每個文本框的框線高度;將位于同一行且框線高度之差小于閾值的文本框合并為一個文本框。
結(jié)合第一方面實施例,在一種可能的實施方式中,在所述獲取待提取文件之后,在所述通過文本分割模型對所述待提取文件進行分割,得到包含文本的多個文本框之前,所述方法還包括:去除所述待提取文件中的干擾因素,得到預(yù)處理文件;
相應(yīng)的,所述通過文本分割模型對所述待提取文件進行分割,得到包含文字的多個文本框,包括:通過所述文本分割模型對所述預(yù)處理文件進行分割,得到包含文本的多個文本框。
結(jié)合第一方面實施例,在一種可能的實施方式中,所述去除所述待提取文件中的干擾因素,包括:去除所述待提取文件的預(yù)設(shè)位置的紅色內(nèi)容。
結(jié)合第一方面實施例,在一種可能的實施方式中,所述方法還包括:通過預(yù)先保存的文字糾錯模型對所述每個文本框內(nèi)的文字內(nèi)容進行糾錯。
第二方面,本申請實施例提供一種文件內(nèi)容提取裝置,所述文件內(nèi)容提取裝置包括:獲取模塊、分割模塊及識別模塊。獲取模塊,用于獲取待提取文件;分割模塊,用于通過文本分割模型對所述待提取文件進行分割,得到包含文本的多個文本框;識別模塊,用于通過文本識別模型對每個文本框進行識別,得到每個文本框內(nèi)的文字內(nèi)容。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科鼎富(北京)科技發(fā)展有限公司,未經(jīng)中科鼎富(北京)科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012359.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





