[發明專利]基于Web時態對象模型的過時網頁信息自動發現方法有效
| 申請號: | 201210197587.0 | 申請日: | 2012-06-15 |
| 公開(公告)號: | CN102737125A | 公開(公告)日: | 2012-10-17 |
| 發明(設計)人: | 李石君;楊莎;甘琳;余偉;王俊;劉晶;丁永剛;王峰 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 web 時態 對象 模型 過時 網頁 信息 自動 發現 方法 | ||
技術領域
本發明屬于數據質量的研究范疇,涉及時態web、網絡信息質量評估、時態信息的語義理解與抽取、時態對象模型的建立與約束關系、時態信息的推理機制與代數運算系統等技術領域,特別提出了一種基于Web時態對象模型的過時網頁信息自動發現方法。
背景技術
時態Web:本項目屬于時態Web研究范疇。近年來,時態Web日漸成為學者們關注的焦點。Web學術最權威的國際會議WWW在2011年專門設立了“時態Web”Workshop——TWAW。Omar?Alonso等分析了文檔中時間信息的類型,時間的表述方式及形式化,時間的標注等內容,指出了時態網絡的研究方向,包括時空信息挖掘、時態檢索、時間相似度與實時搜索等[1]。Miklós?Erdélyi等提出了新的基于特征的時態鏈接相似度,給出了在大規模的圖中高效計算的方法,用以探測網絡的垃圾信息[2]。Marilena?Oita等研究了網頁進化的規律,并對近年來捕捉網頁隨時間而變化軌跡的各種最優方法進行了對比[3]。Brian?D.Davison等人基于在不同時間點的多種網絡快照組成的時態Web圖,建立了網絡沖浪模型來組合各個網絡的刷新率[4]。Yun?Chi等通過“社區分解”分析結構和時間動態變化發現社區[5]。李必信等定義了時間屬性序列圖的形式語法,給出基于時間Buchi自動機的形式操作語義,并用實時規約模式度量了時間屬性序列圖的表達力[6]。時態Web的相關成果為本項目的研究提供了理論基礎。
網頁質量評估及時效性度量:目前,在網站質量的評價方面,方濱興等研究了利用網頁質量評價的新維度——社會性標注——以改進網頁檢索性能[7];中科院鐘華、黃濤等提出了一種網絡資源敏感的性能診斷方法[8]。陳傳夫等在采用層次分析法確定各級指標權重的過程中,構造了時效性指標的判斷矩陣[9]。Brian?D.Davison等人利用網頁新鮮度來評估網頁質量,并從頁面本身及其鏈入頁面兩方面來度量網頁的新鮮度[10]。王海勛等將內容新鮮度的概念形式化,提出了用最少的網絡流量保持并優化內容新鮮度的方法[11]。事實上,以上的測評指標均針對的是網站內容的整體質量和一般意義上的信息時效性,對于網頁的時間一致性并未進行建模和度量。
基于時間感知的Web網頁信息檢索系統:以PageRank為代表的基于鏈接分析打分方法并未考慮網頁的時效性,故在時間感知搜索中,其排序存在一定的偏差[12]。因此,對已有的檢索模型的時間維度的擴展與深化成為必然。近年來,不斷出現基于時間信息的檢索系統的研究成果,Klaus?Berberich等提出一種索引結構,能有效地對帶有時間信息的文檔進行高性能的檢索支持。但該結構僅僅支持基于時間點的查詢,不支持帶有時間段信息的查詢[13]。BrianD.Davison研究了查詢條件的不同時間特性,提出用自適應的機器學習框架來平衡和優化網頁排序的新鮮度與相關性[14]。本項目將在現有工作的基礎上,利用網頁時間不一致度量,建立時間感知的Web網頁信息檢索模型。
Web信息抽取:在Web信息抽取方面,已有大量的研究工作。最近的研究包括:Weikum,Gerhard等人研究了基于知識理解的命名實體、它們的語義類,以及它們的相互關系[15]。Utku?Irmak和Reiner?Kraft研究了命名結構實體,提出了一種檢測半結構實體的新三級引導框架,描述了電話,日期和時間實體[16]。Jannik?Strotgen等構造了TimeTrails系統,用以提取、查詢、存儲并挖掘文本中隱含的時空信息[17]。于戈等分析DeepWeb結果頁面的特點,提出了基于DOM樹的自動實體抽取策略[18]。本項目主要采用基于時態DOM模型的Web信息提取方法,有關時間的正則文法匹配,以及基于模式代數的方法[19]和時間概念本體方法,抽取網頁多個時間維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210197587.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分裂細胞識別方法
- 下一篇:一種靈芝水提物的質量控制方法





