[發(fā)明專利]基于用戶瀏覽行為的用戶興趣建模方法無效
| 申請?zhí)枺?/td> | 201010118484.1 | 申請日: | 2010-03-05 |
| 公開(公告)號: | CN101770520A | 公開(公告)日: | 2010-07-07 |
| 發(fā)明(設(shè)計)人: | 孫雁飛;宮婷;姚蓓麗;張順頤;王攀 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 210046 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 用戶 瀏覽 行為 興趣 建模 方法 | ||
1.一種基于用戶瀏覽行為的用戶興趣建模方法,其特征在于該方法的步驟為:
A.顯式構(gòu)建用戶興趣模型:未注冊的用戶先通過用戶注冊填寫個人信息及興趣愛好來構(gòu)建初始用戶興趣模型,已注冊的用戶直接登錄即可;
B.隱式更新用戶興趣模型:根據(jù)用戶瀏覽過的網(wǎng)頁隱式完善和更新用戶興趣模型,其過程如下:
1)訓(xùn)練過程:訓(xùn)練過程是指完成訓(xùn)練集文檔的向量表示過程,在訓(xùn)練過程中,訓(xùn)練集實(shí)例經(jīng)過網(wǎng)頁預(yù)處理、中文分詞和特征選取處理后被表示成第一向量的形式,行成特征向量集,該特征向量集用來描述類別模式,在分類過程中使用;
2)歷史網(wǎng)頁處理過程:歷史訪問庫中存儲用戶訪問web的歷史記錄,這些歷史網(wǎng)頁經(jīng)過網(wǎng)頁預(yù)處理、中文分詞并表示成第二向量;
3)頁面分類:所述第一向量和第二向量按照KNN分類算法對待分類的用戶歷史文檔進(jìn)行分類,取最相近者的類別作為用戶感興趣的類別;
4)興趣更新:比較用戶原有興趣類別與頁面分類得到的新的興趣類別,按照興趣模型更新算法對用戶興趣進(jìn)行更新。
2.根據(jù)權(quán)利要求1所述的基于用戶瀏覽行為的用戶興趣建模方法,其特征在于所述顯式構(gòu)建用戶興趣模型的方法如下:
a)將用戶興趣樹的根結(jié)點(diǎn)初始化為用戶名,權(quán)重置為1;
b)計算一級興趣結(jié)點(diǎn)的權(quán)重:統(tǒng)計用戶注冊時選擇的興趣類別個數(shù)n,則每個一級興趣類別Ci的權(quán)重為1/n,其中Ci∈C;
c)計算二級興趣結(jié)點(diǎn)的權(quán)重:統(tǒng)計一級興趣類別Ci包含二級興趣類別cj的個數(shù)m,則二級興趣類別cj的權(quán)重為1/nm,其中cj∈Ci∈C,i∈[1,n],j∈[1,m];
d)計算特征項(xiàng)T2的權(quán)重:統(tǒng)計二級興趣類別cj中包含的特征項(xiàng)T2個數(shù)p,則二級興趣類別cj中每個特征項(xiàng)T2的權(quán)重為1/nmp;
其中,C為興趣總類別。
3.根據(jù)權(quán)利要求1所述的基于用戶瀏覽行為的用戶興趣建模方法,其特征在于所述隱式更新用戶興趣模型的興趣模型更新還包括如下方法:
i.對用戶感興趣的Web文檔做網(wǎng)頁預(yù)處理,提取特征項(xiàng)T1,計算特征項(xiàng)T1的權(quán)重,將該文檔表示成第二向量,記作Dnew;
ii.依據(jù)蘭式距離分類算法,計算Dnew與用戶興趣樹中的每個二級興趣類別cj之間的蘭式距離,得到與Dnew相關(guān)度最大的二級興趣類別,記作ck,而ck中的特征項(xiàng)T2將ck表示成第三向量Dck;
iii.比較Dnew中的特征項(xiàng)T1和ck中的特征項(xiàng)T2是否相同,如果特征項(xiàng)t同時出現(xiàn)在第二向量Dnew和第三向量Dck中,則將第二向量和第三向量中特征項(xiàng)t對應(yīng)的權(quán)值相加,所得的和作為ck中特征項(xiàng)t的權(quán)值;如果特征項(xiàng)t僅出現(xiàn)在ck中,則保留該特征項(xiàng)t;如果特征項(xiàng)t僅出現(xiàn)在Dnew中,將Dnew中的特征項(xiàng)t及其權(quán)值添加到第三向量Dck中;
iv.判斷Dck包含的特征項(xiàng)T2個數(shù)是否大于最大個數(shù)閾值ξ,若不大于最大個數(shù)閾值,則轉(zhuǎn)步驟v,否則,將Dck中的特征項(xiàng)T2按照權(quán)重遞減的順序排列,取前ξ個作為ck的特征項(xiàng)T2;
v.結(jié)束;
其中,Dnew為將web文檔表示成的向量,第三向量Dck是由ck中的特征項(xiàng)T2所表示的,cj(j∈[1,m])為二級興趣類別,ck(k∈[1,m])為與Dnew相關(guān)度最大的二級興趣類別,ξ指最大個數(shù)閾值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010118484.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





