[發明專利]一種基于能量函數的網頁時間敏感性度量方法有效
| 申請號: | 201410160080.7 | 申請日: | 2014-04-21 |
| 公開(公告)號: | CN103927365B | 公開(公告)日: | 2017-01-25 |
| 發明(設計)人: | 李石君;甘琳;朱昌盛;劉世超;余偉;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 張火春 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 能量 函數 網頁 時間 敏感性 度量 方法 | ||
1.一種基于能量函數的網頁時間敏感性度量方法,其特征在于,包括以下步驟:
步驟1:選取目標網頁集合D,利用已有爬蟲爬取目標網頁集合,針對網頁集合D中的任意一個網頁d,通過信息抽取算法從無結構的網頁文本中抽取結構化的網頁信息,作為網頁時間敏感性特征;所述的網頁時間敏感性特征包括網頁的標題、網頁的發布時間、網頁的正文內容、網頁的正文標簽、網頁的鏈出鏈接、用戶訪問與評論的時間序列;
步驟2:基于步驟1中所述的網頁時間敏感性特征,構建網頁能量函數模型,計算每個特征對網頁的能量貢獻;其具體實現包括以下子步驟:
步驟2.1:根據網頁的正文內容計算網頁的時間詞信息量IVtw(d),基于網頁的時間詞信息量IVtw(d)與網頁的發布時間,計算網頁發布時刻即t0時刻網頁信息本身產生的初始能量,并定義網頁信息的衰減函數,計算在tk時刻網頁信息本身的能量
步驟2.2:根據網頁的標題,網頁的正文內容和網頁的正文標簽,計算網頁的主題信息覆蓋度IVtopic,基于主題信息覆蓋度IVtopic,計算網頁在tk時刻主題信息覆蓋的能量貢獻
步驟2.3:依據網頁的鏈出鏈接,構建網頁的鏈接網絡,并計算其鏈接網絡在tk時刻對該網頁的能量貢獻elink(tk,d);
步驟2.4:基于用戶的訪問序列和評論序列,定義用戶訪問與用戶評論網頁信息的衰減函數,計算網頁在tk時刻,用戶訪問與用戶評論對網頁的能量貢獻ejoin(tk,d);
步驟3:基于步驟2中所述的tk時刻網頁信息本身的能量網頁在tk時刻主題信息覆蓋的能量貢獻鏈接網絡在tk時刻對該網頁的能量貢獻elink(tk,d)和網頁在tk時刻用戶訪問與用戶評論對網頁的能量貢獻ejoin(tk,d),計算網頁在tk時刻的總能量Eng(tk,d);
步驟4:計算網頁在tk時刻的時間敏感度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410160080.7/1.html,轉載請聲明來源鉆瓜專利網。





