[發明專利]一種相似用戶選取方法及裝置有效
| 申請號: | 201710390358.3 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107247753B | 公開(公告)日: | 2018-12-04 |
| 發明(設計)人: | 王娜;王文君;陳昭男 | 申請(專利權)人: | 深圳大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市恒申知識產權事務所(普通合伙) 44312 | 代理人: | 王利彬 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相似 用戶 選取 方法 裝置 | ||
本發明涉及數據分析與處理技術領域,尤其涉及一種相似用戶選取方法及裝置。本發明通過獲取全部用戶的內容查看歷史數據,按照查看時間點的先后順序對用戶的全部歷史內容進行排序,得到用戶的歷史查看內容序列,對用戶的歷史查看內容序列進行連續詞袋模型訓練,得到連續詞袋模型,以及歷史內容的內容向量,根據得到的內容向量計算用戶的興趣偏好,并根據用戶的興趣偏好計算各用戶與目標用戶的相似度,選取與目標用戶相似度最高的預置數量個用戶作為目標用戶的相似用戶。與現有技術相比,本發明不需要根據用戶對同樣物品產生正反饋行為來計算用戶之間的相似用戶,避免了很多沒有對同樣物品產生過正反饋行為的用戶,無法進行相似用戶計算的問題。
技術領域
本發明涉及數據分析與處理技術領域,尤其涉及一種相似用戶選取方法及裝置。
背景技術
隨著人們逐漸步入信息時代,當今世界正處于信息大爆炸的環境下,并且面臨著嚴峻的信息過剩問題。僅在2011年,全球數據量就達到了1.8ZB,相當于全世界每個人產生200GB以上的數據。這種增長趨勢仍在加速,據保守預計,接下來幾年中,數據將始終保持每年50%的增長速度。如今,各大電商、視頻播放等平臺用戶每天都將產生海量的數據,因此如何有效地利用用戶產生的數據是當今互聯網企業亟需解決的問題。這時候個性化的推薦系統作為數據挖掘的手段便應運而生了。推薦系統指的是互聯網站向用戶提供產品信息或建議,讓用戶發現自己潛在的興趣和需求并幫助用戶選擇產品。
傳統推薦系統的相似用戶計算方法主要是基于用戶的協同過濾算法(User basedcollaborative filtering,UserCF)來獲得,具體如下:
給定用戶u和用戶v,令N(u)表示用戶u有過正反饋行為的物品集合,N(v)表示用戶v有過正反饋行為的物品集合,那么我們可以通過Jaccard公式計算用戶u和v的相似度;或者通過余弦相似度公式計算用戶u和v的相似度。
協同過濾算法將很多時間浪費在用戶之間對同樣的物品產生過正反饋行為的計算上,事實上很多用戶之間并沒有對同樣的物品產生過正反饋行為。因此,基于協同過濾算法獲取相似用戶的缺點有:①用戶數量很大時計算復雜度高;②大多數用戶沒有對相同物品產生過正反饋行為,無用計算過多。
發明內容
本發明所要解決的技術問題是,提供一種相似用戶選取方法及裝置,旨在解決現有技術中相似用戶選取的過程,計算復雜且無用計算過多的問題。
本發明實施例第一方面提供了一種相似用戶選取方法,所述方法包括:
獲取全部用戶的內容查看歷史數據,所述用戶的內容查看歷史數據包括用戶的全部歷史內容及各所述歷史內容的查看時間點,所述歷史內容為用戶查看過的內容;
按照所述查看時間點的先后順序對所述用戶的全部歷史內容進行排序,得到所述用戶的歷史查看內容序列;
對所述用戶的歷史查看內容序列進行連續詞袋模型訓練,得到連續詞袋模型,以及所述歷史內容的內容向量;
根據得到的所述內容向量計算所述用戶的興趣偏好,并根據所述用戶的興趣偏好計算各用戶與目標用戶的相似度;
選取與所述目標用戶相似度最高的預置數量個用戶作為所述目標用戶的相似用戶。
本發明實施例第二方面提供了一種相似用戶選取裝置,所述裝置包括:
獲取模塊,用于獲取全部用戶的內容查看歷史數據,所述用戶的內容查看歷史數據包括用戶的全部歷史內容及各所述歷史內容的查看時間點,所述歷史內容為用戶查看過的內容;
排序模塊,用于按照所述查看時間點的先后順序對所述用戶的全部歷史內容進行排序,得到所述用戶的歷史查看內容序列;
訓練模塊,用于對所述用戶的歷史查看內容序列進行連續詞袋模型訓練,得到連續詞袋模型,以及所述歷史內容的內容向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳大學,未經深圳大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710390358.3/2.html,轉載請聲明來源鉆瓜專利網。





