[發明專利]關鍵詞提取方法、關鍵詞提取裝置及電子設備有效
| 申請號: | 201911285457.0 | 申請日: | 2019-12-13 |
| 公開(公告)號: | CN111078838B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 過群;魯驍;孟二利;王斌;史亮;齊保元;紀鴻旭 | 申請(專利權)人: | 北京小米智能科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F18/23213 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李英艷;李志新 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 裝置 電子設備 | ||
本公開是關于一種關鍵詞提取方法、關鍵詞提取裝置及電子設備。其中關鍵詞提取方法,包括:接收原始文檔;從原始文檔中提取候選詞構成第一詞語集合;獲取第一詞語集合中每個候選詞與原始文檔的第一關聯度,根據第一關聯度確定第二詞語集合;基于原始文檔,通過預測模型生成預測詞,所得到的預測詞構成第三詞語集合;確定第二詞語集合和第三詞語集合的并集,獲取并集中每個候選關鍵詞與原始文檔的第二關聯度,并且獲取并集中每個候選關鍵詞的發散度;基于第二關聯度和發散度,從并集中選擇至少一個候選關鍵詞作為關鍵詞,構成關鍵詞集合。通過關鍵詞之間的發散度,從而解決關鍵詞冗余的問題,關鍵詞不受候選詞詞頻的影響,豐富關鍵詞的表達方式。
技術領域
本公開涉及文本處理技術領域,尤其涉及關鍵詞提取方法、關鍵詞提取裝置及電子設備和計算機可讀存儲介質。
背景技術
隨著互聯網文本數據的爆炸式增長,相關業務中經常需要提取能概括文章核心觀點的關鍵詞,以實現精準推薦、重點標注等功能。
此類業務在執行時具有標準主觀性強,而且難以獲取可用標注語料,從而導致傳統方法的準確度不高,并且十分耗費計算時間。
相關技術中,關鍵詞提取可以通過關鍵詞抽取(針對文內已出現的詞)與關鍵詞生成(針對文內未出現的詞)兩種方法來實現。關鍵詞抽取主要的方法有:基于統計的方法,基于圖的方法,和基于序列標注的方法。基于統計的方法高度依賴于專家對統計特征的設計,而基于圖的方法時間復雜度一般較高(一般在O(n2)以上)。并且兩種方法有一個共同的缺陷,不能保證篩選出來的關鍵詞與文本存在語義的關聯關系,并且傾向于將頻繁詞作為關鍵詞。而基于序列標注的方法是有監督方法,依賴于標注語料,并且只適用于訓練語料領域的任務。
目前,關鍵詞提取的方式具有以下缺點:傳統的提取關鍵詞方法的準確/覆蓋率低,并且基于統計特征和圖隨機游走的方法,不能保證提取的關鍵詞與文章存在語義關聯關系,特別是在文章存在多個話題的情況下;傳統的關鍵詞提取方法,難以控制關鍵詞之間的相似關系,容易生成冗余的關鍵詞;傳統的關鍵詞提取方法,更傾向于提取高頻常見詞匯,而高頻詞匯不一定適合概括文章語義;傳統的關鍵詞生成方式,與關鍵詞提取方式不在同一個語義框架中,從而導致兩個框架難以結合互補。
發明內容
為克服相關技術中存在的問題,本公開提供一種關鍵詞提取方法、關鍵詞提取裝置及電子設備和計算機可讀存儲介質。
根據本公開實施例的第一方面,提供一種關鍵詞提取方法,方法包括:接收原始文檔;從原始文檔中提取候選詞,所提取的候選詞構成第一詞語集合;獲取第一詞語集合中每個候選詞與原始文檔的第一關聯度,根據第一關聯度確定第二詞語集合,第二詞語集合為第一詞語集合的子集;基于原始文檔,通過預測模型生成預測詞,所得到的預測詞構成第三詞語集合;確定第二詞語集合和第三詞語集合的并集;獲取并集中每個候選關鍵詞與原始文檔的第二關聯度;獲取并集中每個候選關鍵詞的發散度;基于第二關聯度和發散度,從并集中選擇至少一個候選關鍵詞作為關鍵詞,構成原始文檔的關鍵詞集合。
在一實施例中,基于第二關聯度和發散度,從并集中選擇至少一個候選關鍵詞作為關鍵詞,構成原始文檔的關鍵詞集合,包括:判斷并集中每個候選關鍵詞的第二關聯度是否大于預設關聯度閾值,并判斷并集中每個候選關鍵詞的發散度是否大于預設發散度閾值;從并集中選擇第二關聯度大于預設關聯度閾值且發散度大于預設發散度閾值的至少一個候選關鍵詞;將至少一個候選關鍵詞作為關鍵詞。
在一實施例中,在判斷并集中每個候選關鍵詞的第二關聯度是否大于預設關聯度閾值之前,還包括:將并集中來自第三詞語集合的部分候選關鍵詞的第二關聯度乘以一個補償系數,作為最終確定的第二關聯度,補償系數大于1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米智能科技有限公司,未經北京小米智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911285457.0/2.html,轉載請聲明來源鉆瓜專利網。





