[發(fā)明專利]一種基于能量函數(shù)的網(wǎng)頁時(shí)間敏感性度量方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410160080.7 | 申請(qǐng)日: | 2014-04-21 |
| 公開(公告)號(hào): | CN103927365B | 公開(公告)日: | 2017-01-25 |
| 發(fā)明(設(shè)計(jì))人: | 李石君;甘琳;朱昌盛;劉世超;余偉;李宇軒 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙)42222 | 代理人: | 張火春 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 能量 函數(shù) 網(wǎng)頁 時(shí)間 敏感性 度量 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于時(shí)態(tài)Web、Web信息質(zhì)量評(píng)估、使用模式等技術(shù)領(lǐng)域,涉及數(shù)據(jù)質(zhì)量的研究范疇,特別涉及一種基于能量函數(shù)的網(wǎng)頁時(shí)間敏感性度量方法。
背景技術(shù)
時(shí)態(tài)Web:近年來,時(shí)態(tài)Web日漸成為學(xué)者們關(guān)注的焦點(diǎn)。Web學(xué)術(shù)的權(quán)威國(guó)際會(huì)議WWW(International?World?Wide?Web?Conference)在2011年專門設(shè)立了“時(shí)態(tài)Web”研討會(huì)——TWAW(Temporal?Web?Analytics?Workshop)。該研討會(huì)主要討論了時(shí)間信息檢索、Web內(nèi)容的時(shí)間性和Web檔案的搜索與訪問的時(shí)間性三個(gè)方面。Omar?Alonso等分析了文檔中時(shí)間信息的類型,時(shí)間的表述方式及形式化,時(shí)間的標(biāo)注等內(nèi)容,指出了時(shí)態(tài)網(wǎng)絡(luò)的研究方向,包括時(shí)空信息挖掘、時(shí)態(tài)檢索、時(shí)間相似度與實(shí)時(shí)搜索等。Miklós?Erdélyi等提出了新的基于特征的時(shí)態(tài)鏈接相似度,給出了在大規(guī)模的圖中高效計(jì)算的方法,用以探測(cè)網(wǎng)絡(luò)的垃圾信息。Marilena?Oita等研究了網(wǎng)頁進(jìn)化的規(guī)律,并對(duì)近年來捕捉網(wǎng)頁隨時(shí)間而變化軌跡的各種最優(yōu)方法進(jìn)行了對(duì)比。
另外,Brian?D.Davison等人基于在不同時(shí)間點(diǎn)的多種網(wǎng)絡(luò)快照組成的時(shí)態(tài)Web圖,建立了網(wǎng)絡(luò)沖浪模型來組合各個(gè)網(wǎng)絡(luò)的刷新率。Jure?Leskovec等人對(duì)在線媒體的時(shí)態(tài)變化模式進(jìn)行了研究,他認(rèn)為網(wǎng)頁內(nèi)容存在產(chǎn)生、發(fā)展和消退的生命周期,他們對(duì)生命周期內(nèi)網(wǎng)頁內(nèi)容隨時(shí)間變化的規(guī)律性進(jìn)行了研究,并針對(duì)兩組不同時(shí)間敏感度的網(wǎng)頁進(jìn)行了時(shí)態(tài)模式實(shí)驗(yàn)。Yun?Chi等通過“社區(qū)分解”分析結(jié)構(gòu)和時(shí)間動(dòng)態(tài)變化發(fā)現(xiàn)社區(qū)。Susan?T.Dumais分析了Web內(nèi)容隨時(shí)間的變化,用戶重復(fù)訪問網(wǎng)頁的行為,以及用戶意圖和網(wǎng)頁內(nèi)容對(duì)用戶重復(fù)訪問模式的影響,并將Web頁面和鏈接的演化模式、文檔改變數(shù)量和頻率等應(yīng)用到相關(guān)度排序中,以改善排序結(jié)果。
Web信息質(zhì)量評(píng)估:與本發(fā)明相關(guān)的Web信息質(zhì)量評(píng)估主要涉及可信度、新鮮度、時(shí)效性、三個(gè)方面:
(1)可信度方面:Weiyi?Meng和Clement?Yu基于信息的正確性、新鮮度和一致性,研究了Web信息的真實(shí)性,他們利用Web中的其他信息判斷給定語句是否真實(shí),并針對(duì)虛假的陳述找出最相近的真實(shí)表達(dá);
(2)新鮮度方面:新鮮度(Freshness)的研究開始得很早,已經(jīng)有了廣泛研究。特別是在搜索領(lǐng)域,新鮮度已經(jīng)逐漸成為一個(gè)度量搜索結(jié)果的重要標(biāo)準(zhǔn)。Brian?D.Davison從Web用戶的維護(hù)活動(dòng)中挖掘網(wǎng)頁的新鮮度,并將這個(gè)特征用于搜索。他們從頁面本身和鏈入頁面兩方面量化了Web隨著時(shí)間推移的新鮮度,并利用兩種新鮮度度量類型間的時(shí)間相關(guān)性量化頁面新鮮度的可信性。Jun?Ma等人提出了一個(gè)基于網(wǎng)頁的發(fā)表時(shí)間的網(wǎng)頁質(zhì)量排序模型,并將該模型應(yīng)用于PageRank算法中,以提高檢索性能;
(3)時(shí)效性方面:時(shí)效性(timeliness)是評(píng)價(jià)Web信息質(zhì)量的一個(gè)重要指標(biāo),陳傳夫等人提出了一個(gè)時(shí)效性評(píng)估框架,在采用層次分析法確定各級(jí)指標(biāo)權(quán)重的過程中,構(gòu)造了時(shí)效性指標(biāo)的判斷矩陣。Yanlong?Zhang等提出了平均發(fā)布時(shí)延(Mean?Time?Delay?To?Publish)、網(wǎng)站演化速度(Site?Evolution?Speed)和主頁更新頻率(Homepage?Update?Frequency)三種網(wǎng)站時(shí)效性度量方法。Elad?Yom-Tov和Fernando?Diaz針對(duì)三個(gè)新聞事件,研究了新聞媒體(電視、報(bào)紙和新聞網(wǎng)站)、社會(huì)媒體(包括Facebook和Twitter)和搜索引擎三種信息源的時(shí)效性和信息源傳播范圍與地理位置之間的關(guān)系。Sandra?de?F.Mendes?Sampaio等人構(gòu)建了基于數(shù)據(jù)的準(zhǔn)確度、完整度和時(shí)效性的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型對(duì)網(wǎng)頁進(jìn)行評(píng)價(jià),并將該模型應(yīng)用到已有的信息查詢系統(tǒng)中,以提高查詢結(jié)果的質(zhì)量。
然而,時(shí)間敏感性分析與時(shí)效性度量、新鮮度和可信度是有區(qū)別的。Web內(nèi)容的時(shí)效性度量往往是在時(shí)間戳缺失、不完整或者不確定的情況下確定Web內(nèi)容是否過時(shí),換句話說,Web內(nèi)容的時(shí)間戳可能沒有、不完整或者不確定,進(jìn)行時(shí)效性度量就是要找到Web內(nèi)容的時(shí)間戳;Web內(nèi)容的新鮮度是僅僅是考慮信息發(fā)布的時(shí)間與當(dāng)前系統(tǒng)時(shí)間的距離。而Web內(nèi)容的時(shí)間敏感性分析就是發(fā)現(xiàn)Web內(nèi)容隨時(shí)間變化而變化的快慢規(guī)律,從而可以幫助確定Web內(nèi)容的時(shí)間戳進(jìn)行時(shí)效性度量。也就是,時(shí)效性度量、新鮮度只需要明確數(shù)據(jù)的時(shí)間戳,確定是否過時(shí),是否新鮮,不需要考慮中間過程,是以目的為導(dǎo)向的。而敏感性分析卻需要考慮信息隨時(shí)間變化的過程和規(guī)律,不需要確定是否過時(shí),是以過程為導(dǎo)向的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410160080.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





