[發明專利]關鍵詞提取方法、關鍵詞提取裝置及電子設備有效
| 申請號: | 201911285457.0 | 申請日: | 2019-12-13 |
| 公開(公告)號: | CN111078838B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 過群;魯驍;孟二利;王斌;史亮;齊保元;紀鴻旭 | 申請(專利權)人: | 北京小米智能科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F18/23213 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 裝置 電子設備 | ||
1.一種關鍵詞提取方法,其特征在于,所述方法包括:
接收原始文檔;
從所述原始文檔中提取候選詞,所提取的所述候選詞構成第一詞語集合;
獲取所述第一詞語集合中每個所述候選詞與所述原始文檔的第一關聯度,根據所述第一關聯度確定第二詞語集合,所述第二詞語集合為所述第一詞語集合的子集;
基于所述原始文檔,通過預測模型生成預測詞,所得到的所述預測詞構成第三詞語集合;
確定所述第二詞語集合和所述第三詞語集合的并集,獲取所述并集中每個候選關鍵詞與所述原始文檔的第二關聯度,并且獲取所述并集中每個候選關鍵詞的發散度;
基于所述第二關聯度和所述發散度,從所述并集中選擇至少一個候選關鍵詞作為關鍵詞,構成所述原始文檔的關鍵詞集合;
所述獲取所述并集中每個候選關鍵詞的發散度,包括:
從所述并集中確定當前待判斷候選關鍵詞;
獲取所述當前待判斷候選關鍵詞與所述原始文檔的關聯度,以及所述當前待判斷候選關鍵詞與已選擇至所述關鍵詞集合中的關鍵詞的關聯度;
基于所述當前待判斷候選關鍵詞與所述原始文檔的關聯度、所述當前待判斷候選關鍵詞與已選擇至所述關鍵詞集合中的關鍵詞的關聯度、以及預設發散度,確定所述當前待判斷候選關鍵詞的發散度,直至確定出所述并集中每個所述候選關鍵詞的發散度。
2.根據權利要求1所述的關鍵詞提取方法,其特征在于,所述基于所述第二關聯度和所述發散度,從所述并集中選擇至少一個候選關鍵詞作為關鍵詞,構成所述原始文檔的關鍵詞集合,包括:
判斷所述并集中每個所述候選關鍵詞的所述第二關聯度是否大于預設關聯度閾值,并判斷所述并集中每個所述候選關鍵詞的所述發散度是否大于預設發散度閾值;
從所述并集中選擇所述第二關聯度大于所述預設關聯度閾值且所述發散度大于所述預設發散度閾值的至少一個候選關鍵詞;
將所述至少一個候選關鍵詞作為所述關鍵詞。
3.根據權利要求2所述的關鍵詞提取方法,其特征在于,在判斷所述并集中每個所述候選關鍵詞的所述第二關聯度是否大于預設關聯度閾值之前,還包括:
將所述并集中來自所述第三詞語集合的部分候選關鍵詞的第二關聯度乘以一個補償系數,作為最終確定的第二關聯度,所述補償系數大于1。
4.根據權利要求1所述的關鍵詞提取方法,其特征在于,所述當前待判斷候選關鍵詞的發散度的計算公式為:
其中,x表示所述當前待判斷候選關鍵詞的詞特征向量,y表示已選擇至所述關鍵詞集合中的關鍵詞的詞特征向量,S1(x,D)表示所述當前待判斷候選關鍵詞的發散度,S(x,D)表示所述當前待判斷候選關鍵詞與所述原始文檔的關聯度,Ysim(x,y)表示所述當前待判斷候選關鍵詞與已選擇至所述關鍵詞集合中的關鍵詞的關聯度,λ表示所述預設發散度,λ大于等于0且小于等于1。
5.根據權利要求1所述的關鍵詞提取方法,其特征在于,所述從所述原始文檔中提取候選詞,包括:
根據基于預設短語粒度確定的候選詞提取規則,從所述原始文檔中提取與所述預設短語粒度相匹配的多個候選詞;
其中,所述與所述預設短語粒度相匹配的候選詞包括:名詞性詞語,或者修飾性詞語與名詞性詞語組合的名詞性詞組。
6.根據權利要求1所述的關鍵詞提取方法,其特征在于,所述方法還包括:
從所述原始文檔中提取出動詞性、名詞性或修飾性的詞語構成的降噪文檔;
使用基于無標注語料訓練的向量生成模型計算所述降噪文檔的文檔特征向量;
從所述降噪文檔中提取出名詞性詞語或者修飾性詞語與名詞性詞語組合的名詞性詞組構成待聚類詞語集合;
使用所述向量生成模型,獲取所述待聚類詞語集合中每個待聚類詞語的詞語特征向量,根據所述詞語特征向量對所述待聚類詞語進行聚類,確定所述原始文檔的多個聚類集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米智能科技有限公司,未經北京小米智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911285457.0/1.html,轉載請聲明來源鉆瓜專利網。





