[發明專利]一種基于主題詞優化的文本關鍵內容智能抽取方法及系統有效
| 申請號: | 202110316125.5 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112926320B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 吳士偉;盧鳳;陳通;李釗;李慧娟;辛國茂;胡傳會;王瑞霜;孫浩;宮傳華 | 申請(專利權)人: | 山東億云信息技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/268;G06F40/30;G06F40/205 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 董雪 |
| 地址: | 250014 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題詞 優化 文本 關鍵 內容 智能 抽取 方法 系統 | ||
1.一種基于主題詞優化的文本關鍵內容智能抽取方法,其特征在于,包括:
獲取待識別文本;
對待識別文本進行篇章級分詞,獲取篇章級詞語和每個篇章級詞語的權重;
對待識別文本進行段落級分詞,獲取段落級詞語和每個段落級詞語的詞性;
將篇章級詞語及權重與段落級詞語及詞性進行匹配,輸出包含詞語、詞性、權重的元組;
將包含詞語、詞性、權重的元組與關鍵短語規則庫進行匹配,獲得符合規則的關鍵短語;
根據關鍵短語,將關鍵短語與文本主題詞表進行匹配,獲取文本關鍵內容;
其中,獲取文本關鍵內容的具體過程為:
將關鍵短語和文本主題詞表中的主題詞進行匹配,獲得主題詞優化后的文本關鍵內容;
將主題詞優化后的文本關鍵內容進行空值分析,獲得空文本對應的文本關鍵內容;
將空文本對應的文本關鍵內容替換主題詞優化后的文本關鍵內容中的空文本,獲得最終的文本關鍵內容。
2.如權利要求1所述的一種基于主題詞優化的文本關鍵內容智能抽取方法,其特征在于,采用結巴分詞對待識別文本進行篇章級分詞。
3.如權利要求1所述的一種基于主題詞優化的文本關鍵內容智能抽取方法,其特征在于,獲取段落級詞語的過程為:
對待識別文本的每段進行分句,獲得每個段落的所有句子;
對每個句子進行分詞,獲得段落級詞語。
4.如權利要求1所述的一種基于主題詞優化的文本關鍵內容智能抽取方法,其特征在于,將包含詞語、詞性、權重的元組按句子組成順序匹配關鍵短語規則庫,將符合關鍵短語規則的元組按順序拼接,輸出關鍵短語。
5.如權利要求4所述的一種基于主題詞優化的文本關鍵內容智能抽取方法,其特征在于,根據詞語詞性,輸出關鍵短語規則。
6.一種基于主題詞優化的文本關鍵內容智能抽取系統,其特征在于,包括:
文本獲取模塊,用于獲取待識別文本;
篇章級詞語獲取模塊,用于對待識別文本進行篇章級分詞,獲取篇章級詞語和每個篇章級詞語的權重;
段落級詞語獲取模塊,用于對待識別文本進行段落級分詞,獲取段落級詞語和每個段落級詞語的詞性;
元組獲取模塊,用于將篇章級詞語及權重與段落級詞語及詞性進行匹配,輸出包含詞語、詞性、權重的元組;
關鍵短語獲取模塊,用于將包含詞語、詞性、權重的元組與關鍵短語規則庫進行匹配,獲得符合規則的關鍵短語;
文本關鍵內容獲取模塊,用于根據關鍵短語,將關鍵短語與文本主題詞表進行匹配,從而獲取文本關鍵內容;
其中,獲取文本關鍵內容的具體過程為:
將關鍵短語和文本主題詞表中的主題詞進行匹配,獲得主題詞優化后的文本關鍵內容;
將主題詞優化后的文本關鍵內容進行空值分析,獲得空文本對應的文本關鍵內容;
將空文本對應的文本關鍵內容替換主題詞優化后的文本關鍵內容中的空文本,獲得最終的文本關鍵內容。
7.一種電子設備,其特征在于,包括存儲器和處理器以及存儲在存儲器上并在處理器上運行的計算機指令,所述計算機指令被處理器運行時,完成權利要求1-5任一項所述的一種基于主題詞優化的文本關鍵內容智能抽取方法的步驟。
8.一種計算機可讀存儲介質,其特征在于,用于存儲計算機指令,所述計算機指令被處理器執行時,完成權利要求1-5任一項所述的一種基于主題詞優化的文本關鍵內容智能抽取方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東億云信息技術有限公司,未經山東億云信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316125.5/1.html,轉載請聲明來源鉆瓜專利網。





