[發(fā)明專利]帶格式文本的信息抽取方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011308474.4 | 申請(qǐng)日: | 2020-11-19 |
| 公開(kāi)(公告)號(hào): | CN112487138A | 公開(kāi)(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 陳敏骎;吳鵬;越榮中;蔣萱;郝麗翠 | 申請(qǐng)(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F40/295 |
| 代理公司: | 北京中博世達(dá)專利商標(biāo)代理有限公司 11274 | 代理人: | 胡艷娟 |
| 地址: | 518129 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 格式 文本 信息 抽取 方法 裝置 | ||
1.一種帶格式文本的信息抽取方法,其特征在于,所述方法包括:
確定需要抽取帶格式文本中屬于目標(biāo)類別的文本塊;
基于文本塊粒度的特征信息,識(shí)別所述帶格式文本中屬于所述目標(biāo)類別的文本塊;
輸出所述帶格式文本中屬于所述目標(biāo)類別的文本塊的標(biāo)識(shí)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于文本塊粒度的特征信息,識(shí)別所述帶格式文本中屬于所述目標(biāo)類別的文本塊,包括:
基于所述帶格式文本中的待識(shí)別文本塊的特征信息,識(shí)別所述待識(shí)別文本塊是否屬于所述目標(biāo)類別。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于文本塊粒度的特征信息,識(shí)別所述帶格式文本中屬于目標(biāo)類別的文本塊,包括:
基于所述帶格式文本中的目標(biāo)文本塊的特征信息,識(shí)別所述帶格式文本中的待識(shí)別文本塊是否屬于所述目標(biāo)類別;
或者,基于所述帶格式文本中的待識(shí)別文本塊的特征信息和所述帶格式文本中的目標(biāo)文本塊的特征信息,識(shí)別所述待識(shí)別文本塊是否屬于所述目標(biāo)類別;
其中,所述目標(biāo)文本塊是與所述待識(shí)別文本塊之間具有預(yù)設(shè)位置關(guān)系的文本塊。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
所述目標(biāo)文本塊是在所述待識(shí)別文本塊的預(yù)設(shè)范圍內(nèi)的文本塊;
或者,所述目標(biāo)文本塊是在所述待識(shí)別文本塊的預(yù)設(shè)方位,且與所述待識(shí)別文本塊相鄰的文本塊。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述文本塊粒度的特征信息,包括以下至少一項(xiàng):
所述文本塊的數(shù)據(jù)信息;
所述文本塊的元數(shù)據(jù)信息;
或,所述文本塊的空間位置信息。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述文本塊的數(shù)據(jù)信息包括以下至少一項(xiàng):
所述文本塊中的字符串的總長(zhǎng)度;
所述文本塊是否包含預(yù)設(shè)字符或預(yù)設(shè)字符串;
所述文本塊包含的預(yù)設(shè)字符或預(yù)設(shè)字符串的總數(shù);
所述文本塊包含的預(yù)設(shè)字符或預(yù)設(shè)字符串占所述文本塊的字符的比例;
所述文本塊是否包含預(yù)設(shè)關(guān)鍵詞;
所述文本塊是否包含預(yù)設(shè)命名實(shí)體;
或,所述文本塊是否包含預(yù)設(shè)格式信息。
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述文本塊的元數(shù)據(jù)信息,包括以下至少一項(xiàng):
所述文本塊的字體、字號(hào)、顏色、是否加粗、是否斜體或是否有下劃線。
8.根據(jù)權(quán)利要求5至7任一項(xiàng)所述的方法,其特征在于,所述文本塊的空間位置信息包括以下至少一項(xiàng):
所述文本塊相對(duì)所述帶格式文本的頁(yè)邊緣的距離;
或,所述文本塊相對(duì)所述帶格式文本中的參考文本塊的距離。
9.根據(jù)權(quán)利要求1至8任一項(xiàng)所述的方法,其特征在于,所述確定需要抽取帶格式文本中屬于目標(biāo)類別的文本塊,包括:
接收請(qǐng)求消息,所述請(qǐng)求消息用于請(qǐng)求抽取所述帶格式文本中屬于所述目標(biāo)類別的文本塊。
10.根據(jù)權(quán)利要求1至9任一項(xiàng)所述的方法,其特征在于,在所述確定需要抽取帶格式文本中屬于目標(biāo)類別的文本塊之前,所述方法還包括:
顯示第一用戶界面,所述第一用戶界面包含第一指示信息和第二指示信息,所述第一指示信息用于指示用戶輸入所述帶格式文本,所述第二指示信息用于指示用戶輸入所述目標(biāo)類別的標(biāo)識(shí)。
11.根據(jù)權(quán)利要求1至10任一項(xiàng)所述的方法,其特征在于,在執(zhí)行所述基于文本塊粒度的特征信息,識(shí)別所述帶格式文本中屬于所述目標(biāo)類別的文本塊的過(guò)程中,所述方法還包括:
顯示第二用戶界面,所述第二用戶界面包含第三指示信息,所述第三指示信息用于指示用戶正在執(zhí)行信息抽取過(guò)程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011308474.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





