[發(fā)明專利]結(jié)構(gòu)化文本的文本信息提取方法、存儲介質(zhì)和服務(wù)器有效
| 申請?zhí)枺?/td> | 201711000763.6 | 申請日: | 2017-10-24 |
| 公開(公告)號: | CN107766328B | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設(shè)計)人: | 楊曉剛 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/279 |
| 代理公司: | 深圳中一專利商標(biāo)事務(wù)所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)構(gòu) 文本 信息 提取 方法 存儲 介質(zhì) 服務(wù)器 | ||
1.一種結(jié)構(gòu)化文本的文本信息提取方法,其特征在于,包括:
根據(jù)預(yù)設(shè)的段落主題將當(dāng)前的結(jié)構(gòu)化文本拆分為各個文本段落;
針對每個所述文本段落,從預(yù)設(shè)的各個解析字符串中選取與所述文本段落對應(yīng)的段落主題相匹配的解析字符串;
針對每個所述文本段落,采用選取出的所述解析字符串對所述文本段落進(jìn)行解析,提取出所述文本段落對應(yīng)的文本信息;
在提取得到各個所述文本段落對應(yīng)的文本信息之后,按照預(yù)設(shè)的模板匯總各個所述文本信息,得到所述結(jié)構(gòu)化文本的文本信息;其中,所述預(yù)設(shè)的模板設(shè)有一定布局的信息列表,匯總時將各個文本信息分別填入所述信息列表中的各個指定位置,得到所述結(jié)構(gòu)化文本的文本信息;
在所述根據(jù)預(yù)設(shè)的段落主題將當(dāng)前的結(jié)構(gòu)化文本拆分為各個文本段落之前,還包括:
預(yù)先設(shè)定多種文本類型的結(jié)構(gòu)化文本對應(yīng)的段落主題;
根據(jù)當(dāng)前需要拆分的結(jié)構(gòu)化文本的文本類型選取對應(yīng)的段落主題;
在按照預(yù)設(shè)的模板匯總各個所述文本信息,得到所述結(jié)構(gòu)化文本的文本信息之前,還包括:
根據(jù)所述結(jié)構(gòu)化文本的文本類型從預(yù)設(shè)的模板庫中篩選出與所述文本類型匹配的兩個以上模板;
根據(jù)各個所述文本段落對應(yīng)的段落主題從所述兩個以上模板中選取出與所述段落主題匹配度最高的模板,作為用于匯總各個所述文本信息的模板。
2.根據(jù)權(quán)利要求1所述的結(jié)構(gòu)化文本的文本信息提取方法,其特征在于,若選取出兩個以上解析字符串與一個文本段落對應(yīng)的段落主題相匹配,則針對所述一個文本段落,所述采用選取出的所述解析字符串對所述文本段落進(jìn)行解析,提取出所述文本段落對應(yīng)的文本信息的步驟具體包括:
采用所述兩個以上解析字符串分別對所述一個文本段落進(jìn)行解析,得到所述一個文本段落對應(yīng)的兩個以上文本信息;
將所述兩個以上文本信息進(jìn)行合并處理,得到合并后的文本信息。
3.根據(jù)權(quán)利要求1所述的結(jié)構(gòu)化文本的文本信息提取方法,其特征在于,所述從預(yù)設(shè)的各個解析字符串中選取與所述文本段落對應(yīng)的段落主題相匹配的解析字符串包括:
獲取所述文本段落對應(yīng)的段落主題的主題關(guān)鍵字;
若獲取到的所述主題關(guān)鍵字存在兩個以上,則分別從預(yù)設(shè)的各個解析字符串中選取出與所述主題關(guān)鍵字相匹配的解析字符串,其中,一個主題關(guān)鍵字匹配一個以上的解析字符串;
將選取出的所有所述解析字符串確定為與所述文本段落對應(yīng)的段落主題相匹配的解析字符串。
4.根據(jù)權(quán)利要求1所述的結(jié)構(gòu)化文本的文本信息提取方法,其特征在于,所述根據(jù)預(yù)設(shè)的段落主題將當(dāng)前的結(jié)構(gòu)化文本拆分為各個文本段落包括:
從預(yù)設(shè)的多個段落主題中確定出與所述結(jié)構(gòu)化文本的文本類型對應(yīng)的段落主題;
根據(jù)確定出的所述段落主題將所述結(jié)構(gòu)化文本拆分為各個文本段落。
5.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至4中任一項所述結(jié)構(gòu)化文本的文本信息提取方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711000763.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:麥冬絲瓜及其制備方法
- 下一篇:保健野生紫蘇拌花生米的涼拌菜
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





