[發明專利]一種基于用戶標簽算法在審
| 申請號: | 201711452260.2 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108228771A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 萬迅 | 申請(專利權)人: | 愛品克科技(武漢)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市港灣知識產權代理有限公司 44258 | 代理人: | 微嘉 |
| 地址: | 430000 湖北省武漢市東湖高新技術開發區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶標簽 用戶信息 粉絲 算法 定量化分析 標簽推薦 平臺用戶 用戶群體 用戶提供 留言 發布 分析 | ||
本發明公開了一種基于用戶標簽算法,通過獲取Herpink平臺用戶信息,對用戶信息進行定量化分析,用戶信息包括以下內容:分析關注用戶的人數、用戶的粉絲數量和發布的留言為標準,根據分析結果,針對不同特征的用戶群體提出了相應的標簽推薦方法,為用戶提供更好的影響力,為粉絲選擇更好的、更喜歡的關注對對象,這樣可以提高用戶的更大價值。
技術領域
本發明主要將用戶標簽和用戶興趣相結合,建立用戶興趣模型和用戶屬性描述,為用戶進行個性化興趣推薦,主要為用戶推薦感興趣的標簽或為用戶推薦感興趣的用戶。
背景技術
在用戶興趣點相似或關注用戶的標簽里,計算用戶與標簽的聯系程度;并不是所有存在于—點內的標簽都可以很好的反映出用戶的真實興趣。例如,一個用戶興趣推薦系統中,用戶可能會對某個美食大V標簽反映自己對這個用戶評價的標簽,比如:我很喜歡這道“菜”,看上去很有“味道”,我就是一個“吃貨”。但是,對于系統來說不能夠因為用戶標記了“菜”這個標簽,就認為這個是用戶的興趣偏好。因此需要計算用戶與該標簽的聯系程度來推斷該標簽是否能夠真正的描述用戶的興趣偏好。在標簽系統中,一個標簽在系統中出現的頻率越低,但是某一用戶使用該標簽的頻率越高,則這個標簽越能描述該用戶的興趣偏好。這一特點剛好與傳統算法的核心思想一致,因此在計算用戶與該標簽的聯系程度時引入算法。本專利利用基于相似性的聚類方法將用戶使用過的標簽進行聚類,將用戶的興趣利用一類標簽來進行描述;具體步驟如下:計算該用戶所使用過的所有標簽之間的相似性;根據設定的閾值,將標簽進行聚類,生成若干能夠描述用戶興趣點的標簽集合。最終生成的用戶u的整體興趣模型Hu可以用一個k維向量進行表示:Hu=(interest1,interest2,…,interestk),其中k為用戶的興趣點個數,intersti為用戶第i個興趣點的權重。可以簡單的將權重認為是該興趣點下所包含的標簽頻率數量。
發明內容
在用戶某一興趣類別下,也同樣存在著不同的興趣特征,為了更好的為用戶進行推薦,需要為每個具體的興趣類別計算用戶標簽聯系程度。結合本專利提出的推薦方法,利用TF-IDF理念對用戶標簽聯系程度進行計算:在用戶A的某一興趣類別下找出最能夠描述這個興趣類別的標簽t,即計算興趣類別in與標簽t的聯系程度rel(i,t),其步驟如下:
根據TF-IDF方法思想,計算用戶i興趣與標簽的聯系程度rel(i,t),其定義如下:
TAGS:表示用戶某一興趣類別下所有的標簽集合;
i:表示用戶興趣的集合;
rel(i,t):表示使用標簽t標記項目i的次數。
計算公式如公式(1)所示:rel(i,t)=TF(i,t)*IDF(t) (1)
其中,
公式(2)表示在用戶某一興趣類別下,使用標簽的頻率,數值越大表示使用標簽t用戶興趣i的頻率越高。
附圖說明
圖1為本申請一示例性實施例提供的一種基于用戶標簽算法的架構意圖。
具體實施方式
1、對數據集進行處理,將標簽數據中的特殊字符,例如問號,雙引號等字符進行清理,保持標簽數據的可讀性;為降低數據的稀疏性,選擇相對已經處于用戶標簽較多,用戶關注較多或留言較多,因此過濾掉標簽較少的用戶,留言的數量小于20條、數絲數量不超過20小,稱為不活躍用戶,將這些不活躍用戶過濾掉。然后采用預測目標用戶的相似標簽。根據系統對每位用戶的行為記錄,按照一定格式生成一個在指定的標簽和用戶評論數據集;將產生的數據集按照一定的要求進行處理,并按照所需規則將數據集切分成M份,其中M-1份作為訓練集,剩余的作為測試集;讓推薦算法在M-1份訓練集上進行訓練,在測試集上進行測試,分別選用不同的測試集總共進行M次測試;通過定義好的評測指標算法在每個測試集上得到預測結果,最終將M次的平均值作為最終預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于愛品克科技(武漢)股份有限公司,未經愛品克科技(武漢)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711452260.2/2.html,轉載請聲明來源鉆瓜專利網。





