[發明專利]實體詞的熱度獲取方法及裝置有效
| 申請號: | 201810203602.5 | 申請日: | 2018-03-13 |
| 公開(公告)號: | CN110309189B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 李瀟;鄭孫聰 | 申請(專利權)人: | 深圳市騰訊計算機系統有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06N5/022;G06F18/25 |
| 代理公司: | 深圳市聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體詞 熱度 獲取 方法 裝置 | ||
本發明揭示了一種實體詞的熱度獲取方法及裝置,該方案包括:獲取搜索日志數據集;根據實體詞在所述搜索日志數據集中的提及量,獲得所述實體詞的關注度;根據所述實體詞在已有知識庫中的重要程度,將所述實體詞的關注度與重要程度進行多源融合,獲得所述實體詞的當前熱度。通過采用本發明提供的技術方案,將實體詞的關注度和重要程度進行融合得到實體詞的熱度,既提高了實體詞熱度的獲取準確性,又解決了依靠人的主觀意志來判定實體詞熱度,造成的人力資源浪費以及判定速度慢的問題。
技術領域
本發明涉及數據挖掘技術領域,特別涉及一種實體詞的熱度獲取方法及裝置。
背景技術
實體詞熱度是指實體詞在當前階段的受歡迎程度。在搜索引擎處理中,實體詞熱度非常重要,直接影響查詢詞語的檢索結果。
實體詞的熱度獲取是一種數據挖掘技術。傳統的實體詞熱度問題很大程度上依靠人的主觀意志來判定,因而帶來了浪費人力、速度慢且人為因素影響太嚴重等問題。
目前主要利用知識圖譜中實體詞之間的鏈接信息,計算實體詞的pagerank(佩奇排名)值,進而得到實體詞的熱度。到那時隨著互聯網的普及和飛速發展,每日海量的新聞數據在網絡上涌現,網絡用語由此變得越來越豐富多彩,譬如“蘿莉”、“老司機”等新詞層出不窮。而知識圖譜更新較慢,對于一些網絡新詞,難以快速在知識圖譜中更新其鏈接關系,由此計算得到的實體詞的熱度偏低,獲得的實體詞熱度的準確性不高。
發明內容
為了解決相關技術中存在的實體詞熱度的獲取準確性不高的問題,本發明提供了一種實體詞的熱度獲取方法。
本發明提供了一種實體詞的熱度獲取方法,包括:
獲取搜索日志數據集;
根據實體詞在所述搜索日志數據集中的提及量,獲得所述實體詞的關注度;
根據所述實體詞在已有知識庫中的重要程度,將所述實體詞的關注度與重要程度進行多源融合,獲得所述實體詞的當前熱度。
在一種示例性實施例中,所述根據實體詞在所述搜索日志數據集中的提及量,獲得所述實體詞的關注度之前,所述方法還包括:
根據所述實體詞在所述搜索日志數據集中的查詢語句,將所述查詢語句與表達方式模板進行匹配,獲得包含所述實體詞的查詢語句與所述表達方式模板之間的匹配成功次數;
根據所述實體詞在所述搜索日志數據集中的提及次數以及所述匹配成功次數,累計獲得所述實體詞的提及量。
在一種示例性實施例中,所述根據實體詞在所述搜索日志數據集中的提及量,獲得所述實體詞的關注度之前,所述方法還包括:
根據已構建的實體屬性關系,在所述搜索日志數據集中統計所述實體詞與對應屬性詞同時出現的次數,獲得所述實體詞的正向匹配次數;
根據所述實體詞在所述搜索日志數據集中的提及次數以及所述正向匹配次數,累計獲得所述實體詞的提及量。
在一種示例性實施例中,所述根據實體詞在所述搜索日志數據集中的提及量,獲得所述實體詞的關注度之前,所述方法還包括:
根據已構建的實體屬性關系,在所述搜索日志數據集中統計所述實體詞作為屬性詞與對應實體同時出現的次數,獲得所述實體詞的反向匹配次數;
根據所述實體詞在所述搜索日志數據集中的提及次數以及所述反向匹配次數,累計獲得所述實體詞的提及量。
在一種示例性實施例中,所述根據實體詞在所述搜索日志數據集中的提及量,獲得所述實體詞的關注度,包括:
對所述實體詞的提及量進行歸一化,得到所述實體詞的關注度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市騰訊計算機系統有限公司,未經深圳市騰訊計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810203602.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:內容聚類方法及裝置
- 下一篇:一種基于車載終端的車友推薦方法及系統、車載終端





