[發明專利]一種基于標簽消歧的用戶模型建構方法有效
| 申請號: | 201410380265.9 | 申請日: | 2014-08-04 |
| 公開(公告)號: | CN104199838B | 公開(公告)日: | 2017-09-29 |
| 發明(設計)人: | 魏建良;琚春華;肖亮;劉東升 | 申請(專利權)人: | 浙江工商大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 浙江杭州金通專利事務所有限公司33100 | 代理人: | 劉曉春 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 用戶 模型 建構 方法 | ||
1.一種基于標簽消歧的用戶模型建構方法,其特征在于:包括以下步驟:
1)從標簽網站提供的API端口爬取網站用戶標注數據,對用戶添加過標簽的資源信息(URLs)進行統計,建立標注資源信息數據庫;
2)根據標注資源信息數據庫中的用戶、資源、標簽信息,構建用戶模型與資源模型;
3)對步驟2)中生成的用戶模型進行多義標簽rp的識別;
4)確定步驟3)中多義標簽rp的義項及鄰居標簽集;
5)基于步驟4)生成消歧后的用戶模型;
6)將步驟5)生成的用戶模型嵌入標簽網站后臺,根據用戶模型與資源模型的余弦相似度進行資源推送;
所述步驟2)具體包括以下步驟:
2.1):選取任一個標簽網站中的用戶,從標簽資源信息數據庫中獲取其標注的所有資源信息,建立相應的資源集合R;
2.2):根據資源集合R中每一資源r的標簽出現頻率,應用TF-IDF算法計算r中各標簽的權值wx,其對應的標簽記為tx;
2.3):匯總資源集合R中所有r的tx及wx,提取權值最大的m個標簽記為ty,對應的權值為wy;
2.4):構建用戶模型u=u(ty,wy),其中,ty表示用戶模型中第y個標簽,wy為對應的權值;
2.5):對該用戶的每一資源r,構建資源模型r=r(tx,wx),其中,x表示資源模型中的第x個標簽,wx為對應的權值。
2.如權利要求1所述的一種基于標簽消歧的用戶模型建構方法,其特征在于:所述步驟4)具體包括以下步驟:
4.1):統計用戶模型u(ty,wy)與資源模型r(tx,wx)中的重合標簽Same(t),核對Same(t)與Set(tp)是否存在重合的多義標簽Same(tp);若有,繼續;若無,轉到步驟6);
4.2):對Same(tp)的每一多義標簽tp,計算每一對應的資源類別中與其他標簽的共現次數,在每一類別中取m個共現次數最高的標簽作為鄰居標簽集以共現次數為權值,將其轉為向量模型的形式,得到d個鄰居標簽集的向量模型
4.3):計算u(ty,wy)和d個的余弦相似度,得到相似度最高的鄰居標簽集向量模型記為
4.4):查驗tp在用戶模型u(ty,wy)中的權值,記為wp;
4.5):查找Same(tp)中下一個多義標簽tp+1,若有,則轉到4.2;若無,則繼續。
3.如權利要求2所述的一種基于標簽消歧的用戶模型建構方法,其特征在于:所述步驟5)具體包括以下步驟:
5.1):依據步驟4.4),加總
5.2):將依據向量運算添加到用戶模型u(ty,wy)中,得到消歧后的用戶模型u=u(ty+p,wy+p)。
4.如權利要求1所述的一種基于標簽消歧的用戶模型建構方法,其特征在于:所述步驟6)具體包括以下步驟:
6.1):將用戶模型嵌入標簽網站后臺,根據步驟2.5)生成待推薦資源的資源模型;
6.2):計算用戶模型與資源模型間的余弦相似度,推送相似度最高的k個資源給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工商大學,未經浙江工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410380265.9/1.html,轉載請聲明來源鉆瓜專利網。





