[發明專利]用戶關鍵詞提取裝置、方法及計算機可讀存儲介質在審
| 申請號: | 201710754314.4 | 申請日: | 2017-08-29 |
| 公開(公告)號: | CN107704503A | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 吳振宇;劉睿愷;王建明;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q50/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙)44347 | 代理人: | 于志光,高杰 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 關鍵詞 提取 裝置 方法 計算機 可讀 存儲 介質 | ||
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于社交網絡的用戶關鍵詞提取裝置、方法及計算機可讀存儲介質。
背景技術
目前,隨著社交網絡的普及,基于微博等社交網絡的各種應用也越來越多,例如,針對用戶的博文進行個性化的推薦,目前的推薦方式主要是基于相同標簽信息的好友推薦、基于共同關注的好友推薦、基于話題熱度的微博話題推薦等,但是這種推薦方式局限性大,難以根據用戶的興趣愛好有針對性地進行推薦。所以,如何從海量博文數據中,提取出能夠有效代表用戶的興趣的關鍵詞,分析確定用戶的真正興趣是急需解決的問題。
發明內容
本發明提供一種基于社交網絡的用戶關鍵詞提取裝置、方法及計算機可讀存儲介質,其主要目的在于解決現有技術中難以根據用戶的博文提取出能夠有效代表用戶的興趣的關鍵詞的技術問題。
為實現上述目的,本發明提供一種基于社交網絡的用戶關鍵詞提取裝置,該裝置包括存儲器和處理器,所述存儲器上存儲有可在所述處理器上運行的用戶關鍵詞提取程序,所述用戶關鍵詞提取程序被所述處理器執行時實現如下步驟:
獲取目標用戶在預設時間區間內發表過的博文,使用預設的分詞工具對獲取的博文進行分詞處理,分別獲取每條博文對應的單詞列表;
將獲取的每個博文對應的單詞列表輸入到Word2Vec模型中進行訓練,以獲取詞向量模型;
基于關鍵詞提取算法從博文的單詞列表中提取該博文對應的關鍵詞,將所述目標用戶在所述預設時間區間內發表過的博文累計的關鍵詞構成所述目標用戶的候選關鍵詞集合,并基于所述詞向量模型計算所述候選關鍵詞集合中每一個關鍵詞的詞向量;
根據所述候選關鍵詞集合以及所述候選關鍵詞集合中每一個關鍵詞對應的詞向量,構建語義相似圖;
在所述語義相似圖上運行Pagerank算法為每一個關鍵詞打分,將得分滿足預設條件的關鍵詞作為所述目標用戶的興趣關鍵詞。
可選地,所述根據所述候選關鍵詞集合以及所述候選關鍵詞集合中每一個關鍵詞對應的詞向量,構建語義相似圖的步驟包括:
將所述候選關鍵詞集合中的關鍵詞作為單詞節點,其中,一個關鍵詞對應一個單詞節點;
遍歷全部單詞節點,根據對應的詞向量計算每兩個單詞節點之間的上下文相似度,每當兩個單詞節點之間的上下文相似度大于預設閾值時,在所述兩個單詞節點之間建立一條邊;
由全部單詞節點以及建立的邊構成所述語義相似圖。
可選地,所述根據對應的詞向量計算每兩個單詞節點之間的上下文相似度的步驟包括:
獲取兩個單詞節點的詞向量,并計算這兩個詞向量之間的余弦相似度,將所述余弦相似度作為所述兩個單詞節點之間的上下文相似度。
可選地,當所述博文包含的字數大于或者等于預設字數時,所述基于關鍵詞提取算法從博文的單詞列表中提取該博文對應的關鍵詞的步驟包括:
分別按照預設的多個關鍵詞提取算法從博文的單詞列表中提取關鍵詞;
將所述多個關鍵詞提取算法提取的關鍵詞中重復的關鍵詞作為該博文對應的關鍵詞。
可選地,所述將得分滿足預設條件的關鍵詞作為所述目標用戶的興趣關鍵詞的步驟包括:
將得分大于預設分數的關鍵詞作為所述目標用戶的興趣關鍵詞;
或者,將得分大于預設分數的關鍵詞作為所述目標用戶的興趣關鍵詞,其中,在得分大于預設分數的關鍵詞的數量大于第一預設個數時,將所述第一預設個數個關鍵詞中的第二預設個數個關鍵詞作為所述目標用戶的興趣關鍵詞,所述第一預設個數大于所述第二預設個數。
此外,為實現上述目的,本發明還提供一種基于社交網絡的用戶關鍵詞提取方法,該方法包括:
獲取目標用戶在預設時間區間內發表過的博文,使用預設的分詞工具對獲取的博文進行分詞處理,分別獲取每條博文對應的單詞列表;
將獲取的每個博文對應的單詞列表輸入到Word2Vec模型中進行訓練,以獲取詞向量模型;
基于關鍵詞提取算法從博文的單詞列表中提取該博文對應的關鍵詞,將所述目標用戶在所述預設時間區間內發表過的博文累計的關鍵詞構成所述目標用戶的候選關鍵詞集合,并基于所述詞向量模型計算所述候選關鍵詞集合中每一個關鍵詞的詞向量;
根據所述候選關鍵詞集合以及所述候選關鍵詞集合中每一個關鍵詞對應的詞向量,構建語義相似圖;
在所述語義相似圖上運行Pagerank算法為每一個關鍵詞打分,將得分滿足預設條件的關鍵詞作為所述目標用戶的興趣關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710754314.4/2.html,轉載請聲明來源鉆瓜專利網。





