[發(fā)明專利]文獻(xiàn)關(guān)鍵信息的提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110509831.1 | 申請日: | 2021-05-11 |
| 公開(公告)號: | CN113673294A | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設(shè)計(jì))人: | 張飛;孫騰騰;穆玉芝;項(xiàng)茂清;康健;梁波 | 申請(專利權(quán))人: | 蘇州超云生命智能產(chǎn)業(yè)研究院有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 黃麗霞 |
| 地址: | 215028 江蘇省蘇州市蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文獻(xiàn) 關(guān)鍵 信息 提取 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲 介質(zhì) | ||
本申請涉及一種文獻(xiàn)關(guān)鍵信息的提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。其方法通過獲取待檢測的文獻(xiàn)圖像數(shù)據(jù),對文獻(xiàn)圖像數(shù)據(jù)進(jìn)行區(qū)域檢測,并基于得到的若干個(gè)區(qū)域?qū)?yīng)的區(qū)域類別和坐標(biāo)信息確定若干個(gè)區(qū)域的邏輯順序,通過識別若干個(gè)區(qū)域中的文本內(nèi)容,基于若干個(gè)區(qū)域的邏輯順序?qū)?yīng)獲取與文本內(nèi)容對應(yīng)的文本塊,若相鄰的兩個(gè)文本塊分別對應(yīng)的文本內(nèi)容為同一段落,則合并相鄰的兩個(gè)文本塊對應(yīng)的文本內(nèi)容,得到合并后的文本塊,并根據(jù)文本塊對應(yīng)的文本內(nèi)容確定每一個(gè)文本塊對應(yīng)的文本類型,從而可以基于目標(biāo)文本類型從文獻(xiàn)圖像數(shù)據(jù)中提取關(guān)鍵信息。由于其整個(gè)過程無需人為參與,因此,極大地提高了從文獻(xiàn)圖像數(shù)據(jù)中提取關(guān)鍵信息的效率。
技術(shù)領(lǐng)域
本申請涉及文本識別技術(shù)領(lǐng)域,特別是涉及一種文獻(xiàn)關(guān)鍵信息的提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。
背景技術(shù)
隨著文本識別技術(shù)的發(fā)展,基于深度學(xué)習(xí)的文本檢測及文本識別技術(shù)得到較為快速的發(fā)展。
傳統(tǒng)技術(shù)中,對于提取PDF中的文獻(xiàn)內(nèi)容,通常是通過應(yīng)用PDF解析算法和Office文件重構(gòu)算法將該P(yáng)DF文獻(xiàn)轉(zhuǎn)換為對應(yīng)的可編輯文檔。而對于通過掃描圖像合成的PDF文獻(xiàn),則難以實(shí)現(xiàn)能夠保留原有邏輯結(jié)構(gòu)的文獻(xiàn)內(nèi)容的提取。且目前對于文獻(xiàn)中正文關(guān)鍵信息的提取,多是通過人眼觀察然后進(jìn)行拷貝實(shí)現(xiàn)。
然而,通過解析PDF算法提取文獻(xiàn)內(nèi)容的應(yīng)用范圍較窄,而人工拷貝文獻(xiàn)正文關(guān)鍵信息的方式則耗時(shí)耗力,導(dǎo)致關(guān)鍵信息的提取效率低。
發(fā)明內(nèi)容
基于此,有必要針對上述通過人工拷貝的方式從文獻(xiàn)圖像數(shù)據(jù)中提取關(guān)鍵信息效率低的問題,提供一種文獻(xiàn)關(guān)鍵信息的提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。
一種文獻(xiàn)關(guān)鍵信息的提取方法,所述方法包括:
獲取待檢測的文獻(xiàn)圖像數(shù)據(jù),對所述文獻(xiàn)圖像數(shù)據(jù)進(jìn)行區(qū)域檢測,得到所述文獻(xiàn)圖像中的若干個(gè)區(qū)域以及所述區(qū)域?qū)?yīng)的區(qū)域類別和坐標(biāo)信息;
基于若干個(gè)區(qū)域?qū)?yīng)的區(qū)域類別和坐標(biāo)信息確定所述若干個(gè)區(qū)域的邏輯順序;
識別所述若干個(gè)區(qū)域中的文本內(nèi)容,基于所述若干個(gè)區(qū)域的邏輯順序?qū)?yīng)獲取與所述文本內(nèi)容對應(yīng)的文本塊;
若相鄰的兩個(gè)文本塊分別對應(yīng)的文本內(nèi)容為同一段落,則合并相鄰的兩個(gè)文本塊對應(yīng)的文本內(nèi)容,得到合并后的文本塊;
根據(jù)所述文本塊對應(yīng)的文本內(nèi)容確定每一個(gè)文本塊對應(yīng)的文本類型,基于目標(biāo)文本類型提取對應(yīng)的文本內(nèi)容作為所述文獻(xiàn)圖像數(shù)據(jù)的關(guān)鍵信息。
在其中一個(gè)實(shí)施例中,所述識別所述若干個(gè)區(qū)域中的文本內(nèi)容之后,所述方法還包括:對每一個(gè)區(qū)域中的文本內(nèi)容進(jìn)行糾錯(cuò)處理,得到對每一個(gè)區(qū)域進(jìn)行糾錯(cuò)處理后的文本內(nèi)容。
在其中一個(gè)實(shí)施例中,所述對每一個(gè)區(qū)域中的文本內(nèi)容進(jìn)行糾錯(cuò)處理,包括:識別所述區(qū)域?qū)?yīng)的文本內(nèi)容中的異常字符;若預(yù)先設(shè)置的糾錯(cuò)字典中不存在所述異常字符,則生成所述文本內(nèi)容的糾錯(cuò)候選集,所述糾錯(cuò)候選集中包括多個(gè)候選文本;根據(jù)預(yù)先設(shè)置的語言模型獲取每個(gè)候選文本的困惑度,基于所述困惑度最小的候選文本糾正所述區(qū)域中的文本內(nèi)容。
在其中一個(gè)實(shí)施例中,所述基于所述困惑度最小的候選文本糾正所述區(qū)域中的文本內(nèi)容,包括:獲取所述困惑度最小的候選文本與所述區(qū)域?qū)?yīng)的文本內(nèi)容之間的似度;若所述相似度達(dá)到設(shè)定閾值,則將所述困惑度最小的候選文本作為所述區(qū)域糾錯(cuò)處理后的文本內(nèi)容。
在其中一個(gè)實(shí)施例中,所述基于若干個(gè)區(qū)域?qū)?yīng)的區(qū)域類別和坐標(biāo)信息確定所述若干個(gè)區(qū)域的邏輯順序,包括:基于若干個(gè)區(qū)域?qū)?yīng)的區(qū)域類別和坐標(biāo)信息,采用樹形結(jié)構(gòu)分析算法進(jìn)行分析處理,得到若干個(gè)區(qū)域的邏輯順序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州超云生命智能產(chǎn)業(yè)研究院有限公司,未經(jīng)蘇州超云生命智能產(chǎn)業(yè)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110509831.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:送風(fēng)機(jī)
- 下一篇:抗破裂繼電器
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對應(yīng)裝置
- 文獻(xiàn)價(jià)值評估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語種文獻(xiàn)分類方法、裝置及存儲介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲存系統(tǒng)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





