[發明專利]關鍵詞提取方法及裝置、電子設備、存儲介質在審
| 申請號: | 202011599009.0 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112668321A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 李雪婷;簡仁賢;吳文杰;石潁樂 | 申請(專利權)人: | 竹間智能科技(上海)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 唐菲 |
| 地址: | 200030 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 裝置 電子設備 存儲 介質 | ||
本申請提供一種關鍵詞提取方法及裝置、電子設備、計算機可讀存儲介質,方法包括:從目標文本中提取得到多個候選詞,并以候選詞構建第一候選詞集;依據預設詞性過濾規則對第一候選詞集的候選詞進行過濾,得到第二候選詞集;依據預設停用詞表對第二候選詞集進行過濾,得到第三候選詞集;識別目標文本中的命名實體,并依據停用詞表對識別出的命名實體進行過濾,得到命名實體集;比對命名實體集和第三候選詞集,當第三候選詞集中存在構成命名實體集中任一命名實體的目標候選詞時,從第三候選詞集中刪除目標候選詞,獲得第四候選詞集;合并命名實體集和第四候選詞集,獲得關鍵詞集。本方案可準確提取新聞文本的關鍵詞。
技術領域
本申請涉及自然語言處理技術領域,特別涉及一種關鍵詞提取方法及裝置、電子設備、計算機可讀存儲介質。
背景技術
在自然語言處理(Natural Language Processing,NLP)領域,可以通過TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆向文件頻率)、TextRank等算法實現文本關鍵詞提取。然而,目前的關鍵詞提取方法大多僅僅依賴算法實現,沒有對文本進行語言特征發掘并應用到關鍵詞提取過程中,無法借助文本的語義實現關鍵詞提取。
發明內容
本申請實施例的目的在于提供一種關鍵詞提取方法及裝置、電子設備、計算機可讀存儲介質,用于依據新聞文本的文體特征對新聞文本進行關鍵詞提取。
一方面,本申請提供了一種關鍵詞提取方法,包括:
從目標文本中提取得到多個候選詞,并以所述候選詞構建第一候選詞集;
依據預設詞性過濾規則對所述第一候選詞集的候選詞進行過濾,得到第二候選詞集;
依據預設停用詞表對所述第二候選詞集進行過濾,得到第三候選詞集;
識別所述目標文本中的命名實體,并依據所述停用詞表對識別出的命名實體進行過濾,得到命名實體集;
比對所述命名實體集和所述第三候選詞集,當所述第三候選詞集中存在構成所述命名實體集中任一命名實體的目標候選詞時,從所述第三候選詞集中刪除所述目標候選詞,獲得第四候選詞集;
合并所述命名實體集和所述第四候選詞集,獲得關鍵詞集;其中,所述關鍵詞集包含所述目標文本中的關鍵詞。
在一實施例中,在所述比對所述命名實體集和所述第三候選詞集之前,所述方法還包括:
依據預設的電頭結構規則集從所述目標文本中提取電頭;
對所述電頭進行分詞處理,得到多個分詞單元;
從所述第三候選詞集中刪除與任一分詞單元相同的候選詞。
在一實施例中,在獲得所述關鍵詞集之后,所述方法還包括:
從所述目標文本中提取出多個關鍵句,得到關鍵句集;
比對所述關鍵句集和所述關鍵詞集,對出現在所述關鍵句集中所述關鍵詞集的第一關鍵詞,調整所述關鍵詞集中與所述第一關鍵詞對應的詞頻;
依據所述關鍵詞集中每一關鍵詞對應的詞頻,計算與每一關鍵詞對應的權重系數;
根據預設權重調整策略對所述關鍵詞集的關鍵詞對應的權重系數進行調整;
輸出所述關鍵詞集和與所述關鍵詞集中每一關鍵詞對應的權重系數。
在一實施例中,所述從所述目標文本中提取出多個關鍵句,包括:
根據預設的電頭結構規則集對所述目標文本進行過濾,得到去除所述電頭的目標文本;
從去除所述電頭的目標文本中提取標題、導語的第一句和段落的第一句,作為關鍵句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于竹間智能科技(上海)有限公司,未經竹間智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011599009.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高精度低殘留應力焊縫銑削清根機器人
- 下一篇:一種新型吊頂收邊回彈結構





