[發(fā)明專利]網(wǎng)站內(nèi)容更新檢測評價方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310422723.6 | 申請日: | 2013-09-16 |
| 公開(公告)號: | CN103544213B | 公開(公告)日: | 2016-10-12 |
| 發(fā)明(設(shè)計)人: | 初殿松 | 申請(專利權(quán))人: | 青島英網(wǎng)資訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 青島聯(lián)信知識產(chǎn)權(quán)代理事務(wù)所 37227 | 代理人: | 王中云;王月玲 |
| 地址: | 266000 山東省青島市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)站 內(nèi)容 更新 檢測 評價 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體的說涉及一種對互聯(lián)網(wǎng)網(wǎng)站內(nèi)容的更新進行檢測評價的方法及評價系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息技術(shù)逐漸深入人們的生活。互聯(lián)網(wǎng)作為大量信息的載體,已成為人們工作、生活、學(xué)習(xí)的重要工具。如何及時方便的獲取網(wǎng)站的更新信息及有效的更新內(nèi)容成為人們的需求。
目前,檢查網(wǎng)站內(nèi)容是否更新主要依賴人工進行,這種方法效率不高、準(zhǔn)確率受限、還會耗用較高的人力成本,隨著互聯(lián)網(wǎng)技術(shù)的飛速增長,網(wǎng)站信息的信息量和更新速度都有了較大的提高,依賴人工檢查網(wǎng)站內(nèi)容更新的方式已經(jīng)無法滿足人們工作、生活的需求。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供可以及時、有效、準(zhǔn)確的完成對互聯(lián)網(wǎng)內(nèi)容的更新進行檢測及評價的方法,同時提供一種檢測網(wǎng)站內(nèi)容更新的檢測評價系統(tǒng)。
本發(fā)明的技術(shù)方案是:一種網(wǎng)站內(nèi)容更新檢測及評價方法,包括以下步驟:
(1)抓取原始頁面的URL地址所對應(yīng)的基礎(chǔ)頁面源代碼,并生成頁面源代碼所對應(yīng)的文件對象模型DOM樹;
(2)抓取目標(biāo)頁面的URL地址所對應(yīng)的基礎(chǔ)頁面源代碼,并生成頁面源代碼所對應(yīng)的文件對象模型DOM樹;
(3)將目標(biāo)頁面的DOM樹與原始頁面的DOM樹進行比較,計算原始頁面的DOM樹與目標(biāo)頁面的DOM樹的相似度,將此相似度值與用戶設(shè)置的相似度值進行比較,若大于用戶設(shè)定的相似度值,則認(rèn)為頁面內(nèi)容沒有更新;若小于用戶設(shè)定的相似度值,則認(rèn)為頁面內(nèi)容有更新。
優(yōu)選的是:原始頁面的DOM樹與目標(biāo)頁面的DOM樹的相似度的方法為:
(1)對原始頁面的頁面源代碼進行md5數(shù)字簽名;
(2)對目標(biāo)頁面的頁面源代碼進行md5數(shù)字簽名;
(3)若原始頁面源代碼的md5數(shù)字簽名與目標(biāo)頁面源代碼的md5數(shù)字簽名相同,則認(rèn)為原始頁面的DOM樹與目標(biāo)頁面的DOM樹相似度為100%,目標(biāo)頁面沒有更新,結(jié)束比較;否則進行步驟(4);
(4)計算目標(biāo)頁面DOM樹所有直屬子元素與原始頁面DOM樹所有直屬子元素之間的相似度;
(5)計算目標(biāo)頁面DOM樹每個直屬子元素占這個給DOM樹文檔模型長度的百分比,即元素長度百分比;取步驟(4)中計算得到的目標(biāo)頁面DOM樹的每個直屬子元素與原始頁面DOM樹每個直屬子元素之間的相似度值,即元素相似度值;將每個直屬子元素的元素長度百分比與該直屬子元素對應(yīng)的元素相似度值相乘,得到每個元素的DOM樹相似度值;
(6)將目標(biāo)頁面DOM樹的每個直屬子元素的DOM樹相似度值相加,得到原始頁面的DOM樹與目標(biāo)頁面的DOM樹的相似度值,若相似度大于設(shè)定值,則認(rèn)為頁面沒有更新,若相似度小于設(shè)定的相似度值,則認(rèn)為頁面有更新。
(7)將步驟(6)中對相似度的計算結(jié)果存保存到存儲模塊,同時將最新的頁面URL快照及頁面對應(yīng)的DOM樹保存到存儲模塊中,用最新的頁面DOM樹替換原始頁面DOM樹,作為之后比較的基礎(chǔ)。
優(yōu)選的是:目標(biāo)頁面DOM樹所有直屬子元素與原始頁面DOM樹所有直屬子元素之間的相似度的方法為:
(1)比較目標(biāo)頁面DOM樹的每個直屬子元素與原始頁面的DOM樹的每個直屬子元素的標(biāo)簽,若標(biāo)簽不同,則認(rèn)為相似度為0%,頁面有更新;若標(biāo)簽相同,則進行步驟(2);
(2)比較標(biāo)簽屬性的相似度,即標(biāo)簽相同的屬性占所有屬性的百分比。
優(yōu)選的是:目標(biāo)頁面DOM樹的每個直屬子元素與原始頁面的DOM樹的每個直屬子元素的標(biāo)簽屬性相似度的比較方法為:
將目標(biāo)頁面DOM樹的第一個節(jié)點與原始頁面DOM樹父節(jié)點和所有子節(jié)點依次進行比較,直到找到與目標(biāo)頁面DOM樹的第一個節(jié)點相同的節(jié)點,若能夠找到相同的標(biāo)簽,則將此標(biāo)簽作為基準(zhǔn)標(biāo)簽,其余兄弟標(biāo)簽的比較以此節(jié)點標(biāo)簽為基準(zhǔn)進行比較;若不能找到相同的標(biāo)簽,則將目標(biāo)頁面DOM樹的下一個節(jié)點進行相同過程的比較。
優(yōu)選的是:判斷標(biāo)簽是否相同的標(biāo)準(zhǔn)為:對于容器類標(biāo)簽,比較標(biāo)簽名是否相同;對于非容器類標(biāo)簽,判斷標(biāo)簽名是否相同,并判斷標(biāo)簽內(nèi)容是否相同。
優(yōu)選的是:對非容器類標(biāo)簽內(nèi)容進行比較的方式為純文本比較,即對標(biāo)簽內(nèi)的文本內(nèi)容進行比較。
一種鑒別網(wǎng)站更新的系統(tǒng),該系統(tǒng)包括:
抓取模塊:抓取原始頁面和目標(biāo)頁面的URL地址所對應(yīng)的基礎(chǔ)頁面源代碼,并對原始頁面和目標(biāo)頁面代碼分別進行md5數(shù)字簽名;
解析模塊:解析原始頁面和目標(biāo)代碼所對應(yīng)的DOM樹;
簡單比較模塊:對原始頁面和目標(biāo)頁面代碼的md5數(shù)字簽名進行比較;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于青島英網(wǎng)資訊股份有限公司,未經(jīng)青島英網(wǎng)資訊股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310422723.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種草魚養(yǎng)殖配方飼料
- 下一篇:蜂蜜藍莓干
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





