[發(fā)明專利]信息抽取方法、裝置、電子設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202111340940.1 | 申請日: | 2021-11-12 |
| 公開(公告)號: | CN114077646A | 公開(公告)日: | 2022-02-22 |
| 發(fā)明(設計)人: | 姜濤;李瑞鋒;陳秀娥 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/903;G06F16/25 |
| 代理公司: | 北京柏杉松知識產(chǎn)權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;高鶯然 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 抽取 方法 裝置 電子設備 存儲 介質(zhì) | ||
1.一種信息抽取方法,包括:
將待抽取文檔轉(zhuǎn)換為無空格文本;
查找各指定字段在所述無空格文本中的索引位置;
針對每個指定字段對應的索引位置,從所述無空格文本中截取該索引位置之前第一長度的文本和之后第一長度的文本,得到該指定字段對應的命中文本;
通過該指定字段對應的預設正則表達式,對所述命中文本進行匹配,得到所述命中文本中與所述預設正則表達式相匹配部分的起止索引區(qū)間;
基于所述起止索引區(qū)間從所述待抽取文檔中抽取該指定字段對應的字段值。
2.根據(jù)權利要求1所述的方法,在所述將待抽取文檔轉(zhuǎn)換為無空格文本之后,所述方法還包括:
建立從所述無空格文本至所述待抽取文檔的第一字符索引映射;
所述基于所述起止索引區(qū)間從所述待抽取文本中抽取與該指定字段對應的字段值,包括:
基于所述第一字符索引映射,將所述起止索引區(qū)間映射至所述待抽取文檔,得到所述起止索引區(qū)間在所述待抽取文檔中對應的起始索引位置和結束索引位置;
抽取所述待抽取文檔中從所述起始索引位置至所述結束索引位置的文本,得到該指定字段對應的字段值。
3.根據(jù)權利要求1所述的方法,其中,所述正則表達式通過以下步驟生成:
將預設數(shù)量的樣本文檔分別轉(zhuǎn)換為樣本無空格文本;
針對每個指定字段,從每個樣本無空格文本中獲取該指定字段對應的樣本子串;其中,所述樣本子串包括該指定字段對應的樣本標注值之前第二長度的文本,該指定字段對應的樣本標注值,以及該指定字段對應的樣本標注值之后第二長度的文本;
生成能夠從該指定字段對應的所有樣本子串中匹配出樣本標注值的正則表達式。
4.根據(jù)權利要求3所述的方法,在所述針對每個指定字段,從每個樣本無空格文本中獲取該指定字段對應的樣本子串之后,所述方法還包括:
記錄該指定字段對應的樣本子串的最大長度,將所記錄的最大長度的一半作為截取該指定字段的命中文本時使用的第一長度。
5.根據(jù)權利要求3所述的方法,在所述將預設數(shù)量的樣本文檔分別轉(zhuǎn)換為樣本無空格文本之后,所述方法還包括:
建立從每個樣本文檔至樣本無空格文本之間的第二字符索引映射;
針對每個指定字段,基于該指定字段的標注值在樣本文檔中的起止索引和所述第二字符索引映射,確定該指定字段的標注值在每個樣本無空格文本中的起始位置;
從每個樣本無空格文本中截取所確定的起始位置之前第三長度的文本,確定截取的文本的最大公共子序列。
6.根據(jù)權利要求5所述的方法,其中,所述查找各指定字段在所述無空格文本中的索引位置,包括:
針對每個指定字段,將該指定字段對應的最大公共子序列在所述無空格文本中的索引位置,作為該指定字段對應的索引位置。
7.根據(jù)權利要求3所述的方法,在所述針對每個指定字段,從每個樣本無空格文本中獲取該指定字段對應的樣本子串之后,所述方法還包括:
將該指定字段對應的每個樣本子串轉(zhuǎn)換為字典格式,將每個樣本子串的起始第二長度的文本和結尾第二長度的文本設置為無需匹配。
8.一種信息抽取裝置,包括:
第一轉(zhuǎn)換模塊,用于將待抽取文檔轉(zhuǎn)換為無空格文本;
查找模塊,用于查找各指定字段在所述無空格文本中的索引位置;
截取模塊,用于針對每個指定字段對應的索引位置,從所述無空格文本中截取該索引位置之前第一長度的文本和之后第一長度的文本,得到該指定字段對應的命中文本;
匹配模塊,用于通過該指定字段對應的預設正則表達式,對所述命中文本進行匹配,得到所述命中文本中與所述預設正則表達式相匹配部分的起止索引區(qū)間;
抽取模塊,用于基于所述起止索引區(qū)間從所述待抽取文檔中抽取該指定字段對應的字段值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111340940.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





