[發(fā)明專利]一種基于時間感知的增量機器爬蟲方法有效
| 申請?zhí)枺?/td> | 201810551090.1 | 申請日: | 2018-05-31 |
| 公開(公告)號: | CN108763537B | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設計)人: | 張志勇;李玉祥;趙長偉;牛丹梅;張麗麗;劉芳云;張藍方;向菲 | 申請(專利權)人: | 河南科技大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 洛陽公信知識產權事務所(普通合伙) 41120 | 代理人: | 常曉虎 |
| 地址: | 471000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時間 感知 增量 機器 爬蟲 方法 | ||
一種基于時間感知的增量機器爬蟲方法,根據(jù)每個頁面的基于初始爬行時間表T={t1,t2,...,tn}的相似性得分序列PTS和最大相似性閾值δ,將大于最大相似性閾值δ的相似性得分和對應的初始時間戳去掉,得到優(yōu)化的相似性得分時間序列new_PTS和優(yōu)化的爬行計劃時間表new_T;如果優(yōu)化的爬行計劃時間表new_T的時間戳數(shù)|new_T|大于最佳爬行頻次,就根據(jù)優(yōu)化的相似性得分序列new_PTS得出降維后的時間感知相似性協(xié)方差矩陣,用MIQP算法得出頁面的最佳爬行時間表,對發(fā)生變化的網(wǎng)頁進行增量更新。本發(fā)明可以為目標頁面制定最優(yōu)的頁面刷新策略,從而降低頁面的刷新代價,減少數(shù)據(jù)冗余的產生,提高爬蟲的效率并保證抓取資源的新鮮性。
技術領域
本發(fā)明屬于互聯(lián)網(wǎng)技術領域,具體涉及一種基于時間感知的增量機器爬蟲方法,主要應用于多媒體社交網(wǎng)絡視頻資源的采集。
背景技術
伴隨著大數(shù)據(jù)和Web2.0技術的興起,多媒體社交網(wǎng)絡(MultimediaSocialNetwork,簡稱MSN)上視頻內容呈現(xiàn)爆炸式增長,豐富的視頻資源為用戶提供了更多更好的視頻服務,同時也為用戶提供了更多有價值的研究數(shù)據(jù)。但是視頻頁面的不斷更新變化使得爬取最新最熱的視頻資源越來越困難,頻繁的刷新頁面不僅會耗費大量的資源,而且會產生大量的冗余。因此,如何在大量的視頻資源中及時了解網(wǎng)頁變化的特征,用最低的刷新代價爬取最新的視頻資源,給用戶提供更加優(yōu)質的服務,成為當前多媒體社交網(wǎng)絡服務的一個挑戰(zhàn)。
一般情況下,網(wǎng)頁是否發(fā)生變化是通過不同時間上頁面之間的相似度來檢測的。相似度越小,說明網(wǎng)頁的差異度越大,網(wǎng)頁發(fā)生了變化。通過這種方式,我們可以監(jiān)控不同時間網(wǎng)頁的變化情況,找出網(wǎng)頁變化最大的幾個時間點。在這些時間點上對變化的網(wǎng)頁進行頁面刷新。
增量爬蟲技術就是使用某種頁面刷新策略來確保頁面副本的新穎性。其中,針對頁面變化的研究是制定頁面刷新策略的重點。無論是通過采樣樣本的方式來確定刷新時刻,還是使用基于泊松(Poisson)分布的頁面刷新策略,或者是基于信息周期的刷新策略,都存在數(shù)據(jù)冗余、刷新代價大、新鮮度得不到有效保證等問題。
發(fā)明內容
本發(fā)明的目的是針對頻繁重爬技術效率低,刷新代價大,數(shù)據(jù)冗余等問題,提供一種基于時間感知的增量機器爬蟲方法,通過分析頁面更新模式特征,結合信息精確度和信息新鮮度的指標,為發(fā)生有價值變化的網(wǎng)頁制定最優(yōu)的頁面刷新策略。
為了實現(xiàn)上述目的,本發(fā)明采用的具體方案為:一般情況下,網(wǎng)頁是否發(fā)生變化是通過不同時間上頁面之間的相似度來檢測的。相似度越小,說明網(wǎng)頁的差異度越大,網(wǎng)頁發(fā)生了變化。通過這種方式,我們可以監(jiān)控不同時間網(wǎng)頁的變化情況,找出網(wǎng)頁變化最大的幾個時間點。在這些時間點上對變化的網(wǎng)頁進行頁面刷新。因此本發(fā)明在K.Gupta教授的精度感知頁面刷新策略的基礎上增加新鮮度感知和降維思想來確定網(wǎng)頁刷新的最優(yōu)爬行時間序列,提出基于時間感知的增量爬蟲算法,進一步提高增量爬蟲的效率和獲取信息的新鮮度。
一種基于時間感知的增量機器爬蟲方法,包括如下步驟:
第一步,根據(jù)每個頁面的基于初始爬行時間表T={t1,t2,...,tn}的相似性得分序列PTS和最大相似性閾值,去掉相似性得分序列PTS中大于最大相似性閾值的相似性得分,以組成優(yōu)化的相似性得分序列new_PTS,并將所去掉的相似性得分對應的時間戳從初始爬行時間表中去掉,以得到優(yōu)化的爬行計劃時間表new_T;
第二步,如果優(yōu)化的爬行計劃時間表new_T的時間戳數(shù)|new_T|大于最佳爬行頻次,就根據(jù)優(yōu)化的相似性得分序列new_PTS得出降維后的時間感知相似性協(xié)方差矩陣;
第三步,用MIQP算法優(yōu)化第二步中降維后的時間感知相似性協(xié)方差矩陣,得出頁面的最佳爬行時間表,也意味著頁面在最佳爬行時間表中的時間戳上將會發(fā)生有價值的變化;
第四步,根據(jù)第三步得到的頁面的最佳爬行時間表,對發(fā)生變化的網(wǎng)頁進行增量更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南科技大學,未經河南科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810551090.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





