[發明專利]一種文本提取方法、裝置、設備和介質有效
| 申請號: | 201810018448.4 | 申請日: | 2018-01-09 |
| 公開(公告)號: | CN108268623B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 徐濤;劉小龍 | 申請(專利權)人: | 順豐科技有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903 |
| 代理公司: | 北京志霖恒遠知識產權代理事務所(普通合伙) 11435 | 代理人: | 郭棟梁 |
| 地址: | 518061 廣東省深圳市南山區學府路(以南)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 提取 方法 裝置 設備 介質 | ||
1.一種文本提取方法,其特征在于,所述方法包括:
基于文本樣本和信息提取需求,生成用于提取信息的配置信息,所述配置信息包含文本匹配指令和與所述文本匹配指令對應的字段操作指令,所述文本匹配指令包含若干文本匹配項以及與各文本匹配項關聯的行關系標記符,所述字段操作指令包含與各文本匹配項分別對應的字段操作位置和字段操作符,其中,所述行關系標記符包括順向跨行信息提取標記符、順向連續行信息提取標記符、逆向跨行信息提取標記符和逆向連續行提取標記符中的至少一種,所述字段操作符包括指示將提取的字段標記為臨時變量的字段操作符、指示將提取的字段標記為目標信息的字段操作符和指示將標記為臨時變量的字段進行賦值操作的字段操作符中的至少一項;
基于所述配置信息,從待提取文本中提取目標信息;
其中,所述基于所述配置信息,從待提取文本中提取目標信息,包括:
基于每個文本匹配指令以及其對應的字段操作指令,對所述待提取文本進行信息提取操作,得到每個文本匹配指令對應的提取結果;
根據每個文本匹配指令對應的提取結果,得到所述目標信息;
其中,所述基于每個文本匹配指令以及其對應的字段操作指令,對所述待提取文本進行信息提取操作,得到每個文本匹配指令對應的提取結果,包括:
基于每個文本匹配指令中的文本匹配項,以及與每個文本匹配指令對應的字段操作指令中與每個文本匹配項對應的字段操作位置和字段操作符,對所述待提取文本進行信息提取操作,得到每個文本匹配指令對應的提取結果;其中,文本匹配項的執行順序根據自身關聯的行關系標記符的優先級的先后順序確定。
2.根據權利要求1所述的方法,其特征在于,所述配置信息還包含邏輯關系操作指令;
根據每個文本匹配指令對應的提取結果,得到所述目標信息,包括:
基于所述邏輯關系操作指令,對每個文本匹配指令對應的提取結果進行邏輯操作,得到所述目標信息。
3.根據權利要求2所述的方法,其特征在于,所述邏輯操作包括:交集操作、并集操作和去重操作中的至少一項。
4.根據權利要求1所述的方法,其特征在于,所述行關系標記符的優先級為:
逆向跨行信息提取標記符>逆向連續行提取標記符>順向跨行信息提取標記符>順向連續行信息提取標記符。
5.一種文本提取裝置,其特征在于,所述裝置包括:
配置信息生成單元,用于基于文本樣本和信息提取需求,生成用于提取信息的配置信息,所述配置信息包含文本匹配指令和與所述文本匹配指令對應的字段操作指令,所述文本匹配指令包含若干文本匹配項以及與各文本匹配項關聯的行關系標記符,所述字段操作指令包含與各文本匹配項分別對應的字段操作位置和字段操作符,其中,所述行關系標記符包括順向跨行信息提取標記符、順向連續行信息提取標記符、逆向跨行信息提取標記符和逆向連續行提取標記符中的至少一種,所述字段操作符包括指示將提取的字段標記為臨時變量的字段操作符、指示將提取的字段標記為目標信息的字段操作符和指示將標記為臨時變量的字段進行賦值操作的字段操作符中的至少一項;
提取單元,用于基于所述配置信息,從待提取文本中提取目標信息;
其中,所述提取單元,包括:
提取模塊,用于基于每個文本匹配指令以及其對應的字段操作指令,對所述待提取文本進行信息提取操作,得到每個文本匹配指令對應的提取結果;
組合模塊,用于根據每個文本匹配指令對應的提取結果,得到所述目標信息;
其中,所述提取模塊,具體用于:
基于每個文本匹配指令中的文本匹配項,以及與每個文本匹配指令對應的字段操作指令中與每個文本匹配項對應的字段操作位置和字段操作符,對所述待提取文本進行信息提取操作,得到每個文本匹配指令對應的提取結果;其中,文本匹配項的執行順序根據自身關聯的行關系標記符的優先級的先后順序確定。
6.如權利要求5所述的裝置,其特征在于,所述配置信息還包含邏輯關系操作指令;
所述組合模塊,具體用于:
基于所述邏輯關系操作指令,對每個文本匹配指令對應的提取結果進行邏輯操作,得到所述目標信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于順豐科技有限公司,未經順豐科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810018448.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:返回頁面的方法、裝置及計算機可讀存儲介質
- 下一篇:用戶數據可視化方法及系統





