[發(fā)明專利]一種文本核心內(nèi)容提取方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010575748.X | 申請(qǐng)日: | 2020-06-22 |
| 公開(公告)號(hào): | CN111767393A | 公開(公告)日: | 2020-10-13 |
| 發(fā)明(設(shè)計(jì))人: | 楊雷;李昱;王全禮;陳飛;唐匯 | 申請(qǐng)(專利權(quán))人: | 中國(guó)建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司 |
| 主分類號(hào): | G06F16/34 | 分類號(hào): | G06F16/34;G06F16/31 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 王濤;湯在彥 |
| 地址: | 100033 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 核心內(nèi)容 提取 方法 裝置 | ||
一種文本核心內(nèi)容提取方法及裝置,所述方法包括:獲取待處理文本并提取所述待處理文本中的關(guān)鍵詞;將所述待處理文本中的各段落劃分為多個(gè)主題;根據(jù)所述主題中各句子對(duì)應(yīng)的指標(biāo)參數(shù)分別提取各所述主題的核心句子,其中,所述指標(biāo)參數(shù)包括:各句子在所述待處理文本的位置、各句子的詞頻總數(shù)占所在主題詞頻總數(shù)的比重、各句子的設(shè)定詞匯的數(shù)量及各句子包含的關(guān)鍵詞的頻次;將所述核心句子按照預(yù)設(shè)的組合策略進(jìn)行組合,形成摘要文本。本申請(qǐng)?zhí)峁┑奈谋竞诵膬?nèi)容提取方法及裝置,采用多維度的綜合評(píng)價(jià)策略,能夠根據(jù)文本中的不同主題,對(duì)文本核心內(nèi)容進(jìn)行有代表性的提取,全面客觀地反映文本內(nèi)容。
技術(shù)領(lǐng)域
本申請(qǐng)涉及自然語言處理技術(shù)領(lǐng)域,具體的是一種文本核心內(nèi)容提取方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,各種信息資源越發(fā)豐富,文本數(shù)量越發(fā)龐大,呈待提供一種能夠進(jìn)行自然語言處理,提取文本核心內(nèi)容的方法。文本核心內(nèi)容提取是實(shí)現(xiàn)客戶交互、建設(shè)資訊系統(tǒng)、進(jìn)行知識(shí)管理等的一個(gè)核心功能。文本核心內(nèi)容提取可用于對(duì)文本內(nèi)容進(jìn)行壓縮,進(jìn)行高效集中展示等場(chǎng)景。
在現(xiàn)有文本核心內(nèi)容提取的相關(guān)技術(shù)中,關(guān)鍵字的提取不能做到在全文中均勻散布,據(jù)此所生成的文本核心內(nèi)容有失平衡性,不能準(zhǔn)確代表文本的核心思想。另有現(xiàn)有技術(shù)應(yīng)用句法結(jié)構(gòu)分析,生成知識(shí)網(wǎng)絡(luò)的方法對(duì)文本核心內(nèi)容進(jìn)行提取,據(jù)此生成文本摘要。但句法結(jié)構(gòu)分析具有特定性,普適性差,對(duì)文本核心內(nèi)容的提取存在片面性;另外利用知識(shí)網(wǎng)絡(luò)對(duì)文本進(jìn)行分析,缺乏有效的評(píng)判手段,不能準(zhǔn)確地提取出文本的核心內(nèi)容。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的問題,本申請(qǐng)?zhí)峁┮环N文本核心內(nèi)容提取方法及裝置,能夠?qū)ξ谋竞诵膬?nèi)容進(jìn)行有代表性的提取,全面客觀地反映文本內(nèi)容。
為了解決上述問題中的至少一個(gè),本申請(qǐng)?zhí)峁┮韵录夹g(shù)方案:
第一方面,本申請(qǐng)?zhí)峁┮环N文本核心內(nèi)容提取方法,包括:
獲取待處理文本并提取所述待處理文本中的關(guān)鍵詞;
將所述待處理文本中的各段落劃分為多個(gè)主題;
根據(jù)所述主題中各句子對(duì)應(yīng)的指標(biāo)參數(shù)分別提取各所述主題的核心句子,其中,所述指標(biāo)參數(shù)包括:各句子在所述待處理文本的位置、各句子的詞頻總數(shù)占所在主題詞頻總數(shù)的比重、各句子的設(shè)定詞匯的數(shù)量及各句子包含的關(guān)鍵詞的頻次;
將所述核心句子按照預(yù)設(shè)的組合策略進(jìn)行組合,形成摘要文本。
進(jìn)一步地,所述獲取待處理文本并提取所述待處理文本中的關(guān)鍵詞,包括:
對(duì)所述待處理文本進(jìn)行句子分割,得到全文句子列表;
對(duì)所述全文句子列表進(jìn)行分詞得到全文詞匯,對(duì)所述全文詞匯進(jìn)行共現(xiàn)指標(biāo)統(tǒng)計(jì)和詞頻統(tǒng)計(jì),得到共現(xiàn)指標(biāo)數(shù)據(jù)集及詞頻統(tǒng)計(jì)數(shù)據(jù)集;
根據(jù)所述共現(xiàn)指標(biāo)數(shù)據(jù)集及詞頻統(tǒng)計(jì)數(shù)據(jù)集從所述全文詞匯中篩選出候選詞匯;
將所述候選詞匯輸入至預(yù)先創(chuàng)建的詞匯領(lǐng)域傾向性判斷模型,得到所述關(guān)鍵詞。
進(jìn)一步地,在對(duì)所述全文句子列表進(jìn)行分詞得到全文詞匯之后,包括:對(duì)分詞得到的全文詞匯進(jìn)行詞性標(biāo)注及停用詞和虛詞過濾。
進(jìn)一步地,所述根據(jù)所述共現(xiàn)指標(biāo)數(shù)據(jù)集及詞頻統(tǒng)計(jì)數(shù)據(jù)集從所述全文詞匯中篩選出候選詞匯,包括:
根據(jù)所述共現(xiàn)指標(biāo)數(shù)據(jù)集及詞頻統(tǒng)計(jì)數(shù)據(jù)集計(jì)算所述全文詞匯中各詞匯的評(píng)分;
根據(jù)所述評(píng)分及句子候選詞匯數(shù)量閾值篩選出所述候選詞匯。
進(jìn)一步地,將所述待處理文本中的各段落劃分為多個(gè)主題,包括:
根據(jù)段落尾部標(biāo)志將所述待處理文本進(jìn)行段落劃分,得到段落列表;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司,未經(jīng)中國(guó)建設(shè)銀行股份有限公司;建信金融科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010575748.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 基于網(wǎng)頁頁面布局提取網(wǎng)頁核心內(nèi)容的系統(tǒng)、方法和程序
- 服務(wù)器、用戶終端裝置和控制其的方法以及提供服務(wù)的方法
- 一種文本摘要生成方法及裝置
- 一種基于文本-標(biāo)簽密度的網(wǎng)頁核心內(nèi)容提取方法
- 網(wǎng)頁動(dòng)畫適配屏幕的方法和裝置
- 基于塊、模式識(shí)別及行文本的通用論壇正文提取算法
- 一種大規(guī)模語音數(shù)據(jù)的核心內(nèi)容挖掘方法及設(shè)備
- 信息流展示方法及系統(tǒng)、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種文檔展示方法、裝置及電子設(shè)備
- 核心內(nèi)容處理方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





