[發明專利]基于Web時態對象模型的過時網頁信息自動發現方法有效

申請號：	201210197587.0	申請日：	2012-06-15
公開（公告）號：	CN102737125A	公開（公告）日：	2012-10-17
發明（設計）人：	李石君;楊莎;甘琳;余偉;王俊;劉晶;丁永剛;王峰	申請（專利權）人：	武漢大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	武漢科皓知識產權代理事務所(特殊普通合伙) 42222	代理人：	嚴彥
地址：	430072 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 web 時態對象模型過時網頁信息自動發現方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于Web時態對象模型的過時網頁信息自動發現方法，其特征在于，包括以下步驟：

步驟1，對Web進行時態解析，該步驟進一步包括以下子步驟：

步驟1.1，計算網頁的時態敏感度；

步驟1.2，根據網站中時態敏感度大于預設閾值的網頁，建立Web時態對象模型，所述Web時態對象模型中將網站描述成一棵五層非空樹，網站主頁是根結點，欄目及各級子欄目是中間結點，網頁是葉子結點；每個結點表示為一個二元組(V_C,V_T)，其中，V_C為內容向量，V_T為時態向量；

步驟1.3，利用Web時態對象模型對時態信息進行抽取；

步驟2，Web時態一致性約束與推理，包括根據步驟1所得Web時態對象模型，建立結點間時態一致性約束關系，并依此進行推理，得到網頁的Web時態一致性分析結果；

步驟3，Web時態不一致分類與度量，包括根據步驟1所得Web時態對象模型及步驟2所得結點間時態一致性約束關系，對步驟2所得Web時態一致性分析結果中的Web時態不一致情況進行分類，并對不一致程度進行評分，得到網頁的時態不一致度量值；

步驟4，Web時態不一致自動發現，包括根據步驟2所得Web時態一致性推理分析的結果和步驟3所得網頁的時態不一致度量值判斷發現Web時態不一致的過時網頁。

2.如權利要求1所述基于Web時態對象模型的過時網頁信息自動發現方法，其特征在于：所述步驟1.1中，網頁的時態敏感性按下式計算：

TS_p＝λF(P_v)+γF(P_u)+μF(tw)

其中，TS_p為時間敏感度，P_v為用戶訪問模式，P_u為欄目更新模式，tw為文本的時間信息特征，λ、γ、μ為權重函數；

F(Pv)=Σi=1nδ(ti)pv(ti)max1≤i≤nδ(ti)pv(ti)]]>

其中，F(P_v)是用戶訪問模式函數，δ(t_i)是隨時間t_i變化的權重函數，P_v=(p_v(t₁),…,p_v(t_n))是用戶訪問模式，是以網頁p所在欄目為單位，利用t_i時刻該欄目的整體訪問頻率vf_s(t_i)對t_i時刻該欄目下網頁p的訪問頻率vf_w(t_i)進行平滑，得到的平滑后訪問頻率p_v(t_i)=α×vf_s(t_i)+β×vf_w(t_i)的時間序列，α和β預設的平滑系數，n為時間序列中的時刻總數；