[發(fā)明專利]信息抽取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202111340940.1 | 申請(qǐng)日: | 2021-11-12 |
| 公開(kāi)(公告)號(hào): | CN114077646A | 公開(kāi)(公告)日: | 2022-02-22 |
| 發(fā)明(設(shè)計(jì))人: | 姜濤;李瑞鋒;陳秀娥 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/33;G06F16/903;G06F16/25 |
| 代理公司: | 北京柏杉松知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 馬敬;高鶯然 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 抽取 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本公開(kāi)提供了一種信息抽取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及數(shù)據(jù)提取領(lǐng)域。具體實(shí)現(xiàn)方案為:將待抽取文檔轉(zhuǎn)換為無(wú)空格文本;查找各指定字段在無(wú)空格文本中的索引位置;針對(duì)每個(gè)指定字段對(duì)應(yīng)的索引位置,從無(wú)空格文本中截取該索引位置之前第一長(zhǎng)度的文本和之后第一長(zhǎng)度的文本,得到該指定字段對(duì)應(yīng)的命中文本;通過(guò)該指定字段對(duì)應(yīng)的預(yù)設(shè)正則表達(dá)式,對(duì)命中文本進(jìn)行匹配,得到命中文本中與預(yù)設(shè)正則表達(dá)式相匹配部分的起止索引區(qū)間;基于起止索引區(qū)間從待抽取文檔中抽取該指定字段對(duì)應(yīng)的字段值。節(jié)省了人力和時(shí)間成本。
技術(shù)領(lǐng)域
本公開(kāi)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及數(shù)據(jù)提取技術(shù)領(lǐng)域。
背景技術(shù)
一些企事業(yè)單位隨著業(yè)務(wù)的發(fā)展,會(huì)積累大量包含相似信息的同類型歷史文檔,例如PDF文檔。為了方便存儲(chǔ)和查詢這些歷史文檔中的信息,可以對(duì)同類型歷史文檔進(jìn)行信息抽取,并對(duì)抽取出的信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。
發(fā)明內(nèi)容
本公開(kāi)提供了一種信息抽取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
根據(jù)本公開(kāi)的第一方面,提供了一種信息抽取方法,包括:
將待抽取文檔轉(zhuǎn)換為無(wú)空格文本;
查找各指定字段在所述無(wú)空格文本中的索引位置;
針對(duì)每個(gè)指定字段對(duì)應(yīng)的索引位置,從所述無(wú)空格文本中截取該索引位置之前第一長(zhǎng)度的文本和之后第一長(zhǎng)度的文本,得到該指定字段對(duì)應(yīng)的命中文本;
通過(guò)該指定字段對(duì)應(yīng)的預(yù)設(shè)正則表達(dá)式,對(duì)所述命中文本進(jìn)行匹配,得到所述命中文本中與所述預(yù)設(shè)正則表達(dá)式相匹配部分的起止索引區(qū)間;
基于所述起止索引區(qū)間從所述待抽取文檔中抽取該指定字段對(duì)應(yīng)的字段值。
根據(jù)本公開(kāi)的第二方面,提供了一種信息抽取裝置,包括:
第一轉(zhuǎn)換模塊,用于將待抽取文檔轉(zhuǎn)換為無(wú)空格文本;
查找模塊,用于查找各指定字段在所述無(wú)空格文本中的索引位置;
截取模塊,用于針對(duì)每個(gè)指定字段對(duì)應(yīng)的索引位置,從所述無(wú)空格文本中截取該索引位置之前第一長(zhǎng)度的文本和之后第一長(zhǎng)度的文本,得到該指定字段對(duì)應(yīng)的命中文本;
匹配模塊,用于通過(guò)該指定字段對(duì)應(yīng)的預(yù)設(shè)正則表達(dá)式,對(duì)所述命中文本進(jìn)行匹配,得到所述命中文本中與所述預(yù)設(shè)正則表達(dá)式相匹配部分的起止索引區(qū)間;
抽取模塊,用于基于所述起止索引區(qū)間從所述待抽取文檔中抽取該指定字段對(duì)應(yīng)的字段值。
根據(jù)本公開(kāi)的第三方面,提供了一種電子設(shè)備,包括:
至少一個(gè)處理器;以及
與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行第一方面所述的方法。
根據(jù)本公開(kāi)的第四方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行第一方面所述的方法。
根據(jù)本公開(kāi)的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的方法。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書而變得容易理解。
附圖說(shuō)明
附圖用于更好地理解本方案,不構(gòu)成對(duì)本公開(kāi)的限定。其中:
圖1是本公開(kāi)實(shí)施例提供的一種信息抽取方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111340940.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





