[發明專利]一種基于用戶瀏覽行為的網頁推薦方法有效
| 申請號: | 201410412077.X | 申請日: | 2014-08-20 |
| 公開(公告)號: | CN104199874B | 公開(公告)日: | 2018-07-31 |
| 發明(設計)人: | 姚念民;張薇 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 瀏覽 行為 網頁 推薦 方法 | ||
1.一種基于用戶瀏覽行為的網頁推薦方法,其特征在于:
步驟1:利用瀏覽器收集每個頁面的停留時間以及頁面內容信息,具體包括:
利用瀏覽器監聽頁面的創建和消亡、鼠標滾輪的滑動,統計頁面的停留時間,每當一個頁面即pageA加載完成時,瀏覽器將此時的系統時間記錄下來作為頁面停留時間的開始時刻T(startA),當這個頁面進入非活躍狀態時,也就是用戶進行了關閉頁面的操作或進行了新的網頁瀏覽,瀏覽器再次記錄系統時間,作為頁面停留時間的結束時刻T(endA),用戶在此頁面的頁面停留時間StayTime(pageA)等于結束時刻與開始時刻的時間差,頁面停留時間計算公式如下:
StayTime(pageA)=T(endA)-T(startA)
利用在瀏覽器中得到所有頁面url,對頁面源代碼,即頁面內容,進行獲取;
步驟2:對頁面內容進行文本分析,獲得頁面的特征項,具體包括:
首先對網頁中的干擾信息進行清理,所述的干擾信息為HTML頁面的框架結構信息、超鏈接信息或者腳本信息;
文本分析時,首先,對處理過的頁面文檔集進行分詞處理,然后,對文本中所有特征項進行權值計算,并抽取權值最高的N個詞語作為頁面的主題內容,N取7;
步驟3:根據頁面停留時間和特征項,分析出用戶對每個特征項的興趣程度,得到用戶興趣類權值,具體包括:
在用戶興趣挖掘階段,考慮到頁面停留時間和特征項對用戶興趣的影響,對用戶每一興趣類進行興趣強度計算,即計算用戶興趣類權值;
興趣等級InterestDegree(Ij):表示用戶興趣類權值;
頁面停留時間等級ViewtimeDegree(Ij):表示用戶在每一關鍵詞中花費的時間占總瀏覽時間的比值,Ij∈T,T表示特征集合;
關鍵詞興趣等級KeywordDegree(Ij):表示每一關鍵詞在主題詞集合T中出現的次數占關鍵詞的總數的比值;
興趣類權值計算公式如下所示:
InterestDegree(Ij)=KeywordDegree(Ij)×ViewtimeDegree(Ij)
通過計算頁面停留時間等級和關鍵詞興趣等級,算出用戶對每個興趣類的興趣強度,從而得到用戶興趣表示,
用戶興趣表示為:((I1,InterestDegree(I1)),(I2,InterestDegree(I2)),...,(In,InterestDegree(In)),
其中,In表示用戶的興趣類,InterestDegree(In)表示In對應的用戶興趣類權值,
經過文本分析后,利用特征項表示頁面內容,構建向量空間模型,對于頁面集合P={p1,p2,...,pn}中的任意頁面pi其中1<=i<=n,表示成pi={(ti1,wi1),(ti2,wi2),...,(tin,win)}、n>=1,其中tik、1<=k<=n表示頁面的特征項,wik、1<=k<=n表示特征項對應的權值,在向量空間模型下,使用特征項的權重集合表示頁面向量,頁面pi和pj的頁面向量分別為pi(wi1,wi2,...,win),pj(wj1,wj2,...,wjn),兩個頁面之間的相似度Sim(pi,pj)的公式為:
步驟4:將權值較高的興趣類作為關鍵詞,利用爬蟲程序,將Web上與用戶興趣有關的網頁按照類別全部抓取下來;
步驟5:利用余弦夾角函數計算抓取的網頁與用戶已瀏覽的網頁的相似度,將相似度較高的網頁推送給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410412077.X/1.html,轉載請聲明來源鉆瓜專利網。





