[發明專利]基于Web時態對象模型的過時網頁信息自動發現方法有效
| 申請號: | 201210197587.0 | 申請日: | 2012-06-15 |
| 公開(公告)號: | CN102737125A | 公開(公告)日: | 2012-10-17 |
| 發明(設計)人: | 李石君;楊莎;甘琳;余偉;王俊;劉晶;丁永剛;王峰 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 web 時態 對象 模型 過時 網頁 信息 自動 發現 方法 | ||
1.一種基于Web時態對象模型的過時網頁信息自動發現方法,其特征在于,包括以下步驟:
步驟1,對Web進行時態解析,該步驟進一步包括以下子步驟:
步驟1.1,計算網頁的時態敏感度;
步驟1.2,根據網站中時態敏感度大于預設閾值的網頁,建立Web時態對象模型,所述Web時態對象模型中將網站描述成一棵五層非空樹,網站主頁是根結點,欄目及各級子欄目是中間結點,網頁是葉子結點;每個結點表示為一個二元組(VC,VT),其中,VC為內容向量,VT為時態向量;
步驟1.3,利用Web時態對象模型對時態信息進行抽取;
步驟2,Web時態一致性約束與推理,包括根據步驟1所得Web時態對象模型,建立結點間時態一致性約束關系,并依此進行推理,得到網頁的Web時態一致性分析結果;
步驟3,Web時態不一致分類與度量,包括根據步驟1所得Web時態對象模型及步驟2所得結點間時態一致性約束關系,對步驟2所得Web時態一致性分析結果中的Web時態不一致情況進行分類,并對不一致程度進行評分,得到網頁的時態不一致度量值;
步驟4,Web時態不一致自動發現,包括根據步驟2所得Web時態一致性推理分析的結果和步驟3所得網頁的時態不一致度量值判斷發現Web時態不一致的過時網頁。
2.如權利要求1所述基于Web時態對象模型的過時網頁信息自動發現方法,其特征在于:所述步驟1.1中,網頁的時態敏感性按下式計算:
TSp=λF(Pv)+γF(Pu)+μF(tw)
其中,TSp為時間敏感度,Pv為用戶訪問模式,Pu為欄目更新模式,tw為文本的時間信息特征,λ、γ、μ為權重函數;
其中,F(Pv)是用戶訪問模式函數,δ(ti)是隨時間ti變化的權重函數,Pv=(pv(t1),…,pv(tn))是用戶訪問模式,是以網頁p所在欄目為單位,利用ti時刻該欄目的整體訪問頻率vfs(ti)對ti時刻該欄目下網頁p的訪問頻率vfw(ti)進行平滑,得到的平滑后訪問頻率pv(ti)=α×vfs(ti)+β×vfw(ti)的時間序列,α和β預設的平滑系數,n為時間序列中的時刻總數;
其中,F(Pu)是欄目更新模式函數,θ(ti)是隨時間ti變化的權重函數,Pu=(pu(t1),…,pu(tn))是欄目更新模式,是ti時刻網頁p所在欄目的更新頻率pu(ti)隨時間變化的時間序列;
其中,F(tw)是文本時間信息特征函數,ftw為網頁p文本中的時間詞詞頻,stw(i)為時間詞i的位移,stw(j)為時間詞j的位移,L為網頁p的文本長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210197587.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分裂細胞識別方法
- 下一篇:一種靈芝水提物的質量控制方法





