[發明專利]帶格式文本的信息抽取方法和裝置在審
| 申請號: | 202011308474.4 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112487138A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 陳敏骎;吳鵬;越榮中;蔣萱;郝麗翠 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 胡艷娟 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 格式 文本 信息 抽取 方法 裝置 | ||
本申請公開了一種帶格式文本的信息抽取方法和裝置,涉及信息技術領域以及人工智能技術領域,有助于提高對帶格式文本的信息抽取的準確率。方法包括:首先,確定需要抽取帶格式文本中屬于目標類別的文本塊;其次,基于文本塊粒度的特征信息,識別該帶格式文本中屬于目標類別的文本塊;接著,輸出該帶格式文本中屬于目標類別的文本塊的標識。
技術領域
本申請涉及信息技術領域以及人工智能技術領域,尤其涉及帶格式文本的信息抽取方法和裝置。
背景技術
信息抽取(information extraction,IE)是自然語言處理(natural languageprocessing,NLP)中的一項重要工作。信息抽取,可以理解為:根據用戶需求,通過某些技術手段,從較長的文本中,抽取較短的符合需求的內容。例如,用戶需求是從一份簡歷中抽取“期望職位的內容”,則使用某些技術手段,實現該需求的過程,即被稱為信息抽取。
文本包括帶格式文本(text with layout,TWL)(如簡歷、空運單、發票等)和不帶格式文本。目前,針對文本的信息抽取方法通常是針對不帶格式文本的信息抽取方法。
如果需要對具有帶格式文本進行信息抽取,則傳統技術為:先將該帶格式文本轉換為不帶格式文本,再基于該不帶格式文本中的純文本特征進行信息抽取。由于將帶格式文本轉換為不帶格式文本的過程中,僅保留了帶格式文本中的數據信息,因此,會導致對帶格式文本的信息抽取的準確率不高的問題。
發明內容
本申請實施例提供了一種帶格式文本的信息抽取方法和裝置,有助于提高對帶格式文本的信息抽取的準確率。
為了達到上述目的,本申請提供了以下技術方案:
第一方面,提供了一種帶格式文本的信息抽取方法,該方法包括:首先,確定需要抽取帶格式文本中屬于目標類別的文本塊;其次,基于文本塊粒度的特征信息,識別該帶格式文本中屬于目標類別的文本塊;接著,輸出該帶格式文本中屬于目標類別的文本塊的標識。本技術方案的執行主體可以是終端,也可以是網絡設備。本技術方案直接使用文本塊粒度的特征信息實現對帶格式文本的信息抽取。由于文本塊粒度的特征信息較為豐富,除了包含數據信息之外,還包含元數據信息、空間位置信息等,因此,與傳統技術相比,在選擇合適文本塊粒度的特征信息的情況下,有助于提高信息抽取結果的準確率。另外,本技術方案不受限于帶格式文本的模板,也不受限于文本塊是否跨行等,因此適用范圍廣。
在一種可能的設計中,目標類別可以是任意一種類別,在下文的具體實施方式部分,目標類別可以包括第一類別或第二類別等。
在一種可能的設計中,基于文本塊粒度的特征信息,識別帶格式文本中屬于目標類別的文本塊,包括:基于帶格式文本中的待識別文本塊的特征信息,識別待識別文本塊是否屬于目標類別。使用文本塊自身的特征信息,識別該文本塊是否屬于目標類別,實現簡單。
在一種可能的設計中,基于文本塊粒度的特征信息,識別帶格式文本中屬于目標類別的文本塊,包括:基于帶格式文本中的目標文本塊的特征信息,識別帶格式文本中的待識別文本塊是否屬于目標類別。其中,目標文本塊是與待識別文本塊之間具有預設位置關系的文本塊。這是考慮到“在帶格式文本中,一個文本塊所屬的類別,受與該文本塊之間具有預設位置關系的文本塊的特征信息的影響”,而提供的技術方案,這樣,在選擇合適的目標文本塊的情況下,有助于提高信息抽取結果的準確率,并且實現簡單。
在一種可能的設計中,基于文本塊粒度的特征信息,識別帶格式文本中屬于目標類別的文本塊,包括:基于帶格式文本中的待識別文本塊的特征信息和帶格式文本中的目標文本塊的特征信息,識別待識別文本塊是否屬于目標類別。其中,目標文本塊是與待識別文本塊之間具有預設位置關系的文本塊。結合文本塊自身的特征信息,和“與該文本塊之間具有預設位置關系”的文本塊的特征信息共同確定待識別文本塊是否屬于目標類別,有助于提高信息抽取結果的準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011308474.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙工位智能針式內繞機
- 下一篇:一種滑移連接組件、車門扶手及車門
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





