[發明專利]基于用戶瀏覽行為的用戶興趣建模方法無效
| 申請號: | 201010118484.1 | 申請日: | 2010-03-05 |
| 公開(公告)號: | CN101770520A | 公開(公告)日: | 2010-07-07 |
| 發明(設計)人: | 孫雁飛;宮婷;姚蓓麗;張順頤;王攀 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 210046 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 瀏覽 行為 興趣 建模 方法 | ||
技術領域
本發明是針對用戶興趣建模方法的研究,主要研究如何基于用戶的瀏覽行為來有效獲取用戶的興趣信息,并設計了用戶興趣建模的相關算法,涉及到流量識別、Web挖掘、用戶行為分析、機器學習、數據挖掘和自然語言等多領域。
背景技術
個性化推薦服務是新一代的信息服務,是信息服務發展的趨勢,通過研究不同用戶的興趣,主動為用戶推薦最需要的資源,就能更好地解決互聯網信息日益龐大卻無法滿足用戶需求的矛盾。用戶興趣模型已經成為個性化推薦服務的核心和關鍵技術。
用戶興趣模型不是對用戶個體的一般性描述,而是一種具有面向算法、特定數據結構、形式化的用戶描述。良好的用戶興趣模型可以為個性化推薦服務提供更有力的支持?,F在的用戶興趣建模方法還存在很多不足,主要表現在:
(1)大多數用戶興趣建模方法放大或縮小網頁對用戶興趣表達的重要性。
(2)目前用戶興趣模型更新所采用的方法要么過于強調用戶興趣的即時性,忽略了持久性;要么過于注重時間因素,而忽略主動發現用戶新的興趣。
由上可見,采用傳統用戶興趣建模方法很難準確的識別用戶的興趣。因此,必須另辟蹊徑。
發明內容
技術問題:本發明的目的是設計針對用戶瀏覽行為建立用戶興趣模型的方法。通過挖掘和分析用戶的網絡瀏覽行為,分析其訪問模式、行為習慣和喜好趨向,根據用戶行為的分析結果,向用戶提供更加富有個性和親和力的業務。
技術方案:本發明提出了一種基于用戶瀏覽行為的用戶興趣建模方法,其特征在于該方法的步驟為:
A.顯式構建用戶興趣模型:未注冊的用戶先通過用戶注冊填寫個人信息及興趣愛好來構建初始用戶興趣模型,已注冊的用戶直接登錄即可;
B.隱式更新用戶興趣模型:根據用戶瀏覽過的網頁隱式完善和更新用戶興趣模型,其過程如下:
1)訓練過程:訓練過程是指完成訓練集文檔的向量表示過程,在訓練過程中,訓練集實例經過網頁預處理、中文分詞和特征選取處理后被表示成第一向量的形式,行成特征向量集,該特征向量集用來描述類別模式,在分類過程中使用;
2)歷史網頁處理過程:歷史訪問庫中存儲用戶訪問web的歷史記錄,這些歷史網頁經過網頁預處理、中文分詞并表示成第二向量;
3)頁面分類:所述第一向量和第二向量按照KNN分類算法對待分類的用戶歷史文檔進行分類,取最相近者的類別作為用戶感興趣的類別;
4)興趣更新:比較用戶原有興趣類別與頁面分類得到的新的興趣類別,按照興趣模型更新算法對用戶興趣進行更新。
所述顯式構建用戶興趣模型的方法如下:
a)將用戶興趣樹的根結點初始化為用戶名,權重置為1;
b)計算一級興趣結點的權重:統計用戶注冊時選擇的興趣類別個數n,則每個一級興趣類別Ci的權重為1/n,其中Ci∈C;
c)計算二級興趣結點的權重:統計一級興趣類別Ci包含二級興趣類別cj的個數m,則二級興趣類別cj的權重為1/nm,其中cj∈Ci∈C,i∈[1,n],j∈[1,m];
d)計算特征項T2的權重:統計二級興趣類別cj中包含的特征項T2個數p,則二級興趣類別cj中每個特征項T2的權重為1/nmp;
其中,C為興趣總類別。
所述隱式更新用戶興趣模型的興趣模型更新還包括如下方法:
i.對用戶感興趣的Web文檔做網頁預處理,提取特征項T1,計算特征項T1的權重,將該文檔表示成第二向量,記作Dnew;
ii.依據蘭式距離分類算法,計算Dnew與用戶興趣樹中的每個二級興趣類別cj之間的蘭式距離,得到與Dnew相關度最大的二級興趣類別,記作ck,而ck中的特征項T2將ck表示成第三向量Dck;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010118484.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虛擬交易中可信證據的采集方法
- 下一篇:一種基于數據塊比較的數據更新方法





