[發(fā)明專利]一種相似用戶選取方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710390358.3 | 申請(qǐng)日: | 2017-05-27 |
| 公開(公告)號(hào): | CN107247753B | 公開(公告)日: | 2018-12-04 |
| 發(fā)明(設(shè)計(jì))人: | 王娜;王文君;陳昭男 | 申請(qǐng)(專利權(quán))人: | 深圳大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 深圳市恒申知識(shí)產(chǎn)權(quán)事務(wù)所(普通合伙) 44312 | 代理人: | 王利彬 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 相似 用戶 選取 方法 裝置 | ||
1.一種相似用戶選取方法,其特征在于,所述方法包括:
獲取全部用戶的內(nèi)容查看歷史數(shù)據(jù),所述用戶的內(nèi)容查看歷史數(shù)據(jù)包括用戶的全部歷史內(nèi)容及各所述歷史內(nèi)容的查看時(shí)間點(diǎn),所述歷史內(nèi)容為用戶查看過的內(nèi)容;
按照所述查看時(shí)間點(diǎn)的先后順序?qū)λ鲇脩舻娜繗v史內(nèi)容進(jìn)行排序,得到所述用戶的歷史查看內(nèi)容序列;
對(duì)所述用戶的歷史查看內(nèi)容序列進(jìn)行連續(xù)詞袋模型訓(xùn)練,得到連續(xù)詞袋模型,以及所述歷史內(nèi)容的內(nèi)容向量;
根據(jù)得到的所述內(nèi)容向量計(jì)算所述用戶的興趣偏好,并根據(jù)所述用戶的興趣偏好計(jì)算各用戶與目標(biāo)用戶的相似度;
選取與所述目標(biāo)用戶相似度最高的預(yù)置數(shù)量個(gè)用戶作為所述目標(biāo)用戶的相似用戶;
所述對(duì)所述用戶的歷史查看內(nèi)容序列進(jìn)行連續(xù)詞袋模型訓(xùn)練,得到連續(xù)詞袋模型,以及所述歷史內(nèi)容的內(nèi)容向量,包括:
建立連續(xù)詞袋模型的輸入矩陣V和輸出矩陣U,并對(duì)所述輸入矩陣V和輸出矩陣U進(jìn)行隨機(jī)初始化,其中,V∈Rn×|V|,U∈R|V|×n,n表示向量維度;
從所述用戶的歷史查看內(nèi)容序列中選取一個(gè)所述歷史內(nèi)容xc作為中心內(nèi)容,并讀取所述中心內(nèi)容的前后的各m個(gè)歷史內(nèi)容,并對(duì)讀取出的2m個(gè)歷史內(nèi)容進(jìn)行獨(dú)熱碼編碼,得到2m個(gè)所述歷史內(nèi)容的獨(dú)熱碼,2m個(gè)所述歷史內(nèi)容的獨(dú)熱碼分別表示如下:
x(c-m),...,x(c-1),x(c+1),...,x(c+m);
將2m個(gè)所述歷史內(nèi)容的獨(dú)熱碼分別乘以所述輸入矩陣V,得到2m個(gè)所述歷史內(nèi)容的輸入內(nèi)容向量,2m個(gè)所述歷史內(nèi)容的輸入內(nèi)容向量分別表示如下:
vc-m=Vx(c-m),...vc-1=Vx(c-1),vc+1=Vx(c+1),...,vc+m=Vx(c+m),vi表示所述歷史內(nèi)容的輸入內(nèi)容向量;
對(duì)2m個(gè)所述歷史內(nèi)容的輸入內(nèi)容向量求平均值
根據(jù)所述平均值計(jì)算得分向量z:
將所述得分向量z轉(zhuǎn)換為概率分布
利用交叉熵作為目標(biāo)函數(shù),計(jì)算所述中心內(nèi)容在所述輸出矩陣U中的內(nèi)容向量與所述概率分布之間的誤差:其中,為所述概率分布,y為所述中心內(nèi)容在所述輸出矩陣U中的內(nèi)容向量;
根據(jù)所述誤差得到優(yōu)化目標(biāo)函數(shù):
ui表示所述歷史內(nèi)容wi的輸出內(nèi)容向量;
采用梯度下降法對(duì)所述輸出矩陣U中的所述中心內(nèi)容的內(nèi)容向量和輸入矩陣中的2m個(gè)所述歷史內(nèi)容對(duì)應(yīng)的內(nèi)容向量進(jìn)行更新,得到最終的輸入矩陣V和輸出矩陣U,得到所述連續(xù)詞袋模型,并得到所述歷史內(nèi)容的內(nèi)容向量;
所述根據(jù)得到的所述內(nèi)容向量計(jì)算所述用戶的興趣偏好,包括:
根據(jù)聚類算法將所述用戶的歷史內(nèi)容分為多個(gè)類別,獲取各類別歷史內(nèi)容的類屬中心向量;
獲取所述用戶在預(yù)設(shè)時(shí)間窗口內(nèi)查看過的內(nèi)容,并根據(jù)公式ci∈C,計(jì)算所述用戶對(duì)各類別歷史內(nèi)容的興趣偏好,其中I(u,ci)為所述用戶u對(duì)所述類屬中心向量為ci的類別的歷史內(nèi)容的興趣偏好,n為所述預(yù)設(shè)時(shí)間窗口內(nèi)用戶u查看過的內(nèi)容的數(shù)量,為所述預(yù)設(shè)時(shí)間窗口內(nèi)用戶u查看過的內(nèi)容的內(nèi)容向量的合集,σ為興趣偏好參數(shù)。
2.如權(quán)利要求1所述的相似用戶選取方法,其特征在于,所述根據(jù)所述用戶的興趣偏好計(jì)算各用戶與目標(biāo)用戶的相似度,包括:
根據(jù)計(jì)算得到的所述用戶對(duì)各類別歷史內(nèi)容的興趣偏好,以及公式計(jì)算各用戶與目標(biāo)用戶的相似度,其中sim(m,n)為用戶m與目標(biāo)用戶n的相似度。
3.如權(quán)利要求1所述的相似用戶選取方法,其特征在于,所述根據(jù)所述用戶的興趣偏好計(jì)算各用戶與目標(biāo)用戶的相似度,包括:
根據(jù)計(jì)算得到的所述用戶的興趣偏好,建立全部用戶的興趣分布矩陣;
根據(jù)建立的全部用戶的興趣分布矩陣,計(jì)算各用戶與目標(biāo)用戶的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳大學(xué),未經(jīng)深圳大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710390358.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





