[發明專利]網站內容更新檢測評價方法及系統有效
| 申請號: | 201310422723.6 | 申請日: | 2013-09-16 |
| 公開(公告)號: | CN103544213B | 公開(公告)日: | 2016-10-12 |
| 發明(設計)人: | 初殿松 | 申請(專利權)人: | 青島英網資訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 青島聯信知識產權代理事務所 37227 | 代理人: | 王中云;王月玲 |
| 地址: | 266000 山東省青島市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 內容 更新 檢測 評價 方法 系統 | ||
技術領域
本發明屬于互聯網技術領域,具體的說涉及一種對互聯網網站內容的更新進行檢測評價的方法及評價系統。
背景技術
隨著互聯網技術的發展,網絡信息技術逐漸深入人們的生活。互聯網作為大量信息的載體,已成為人們工作、生活、學習的重要工具。如何及時方便的獲取網站的更新信息及有效的更新內容成為人們的需求。
目前,檢查網站內容是否更新主要依賴人工進行,這種方法效率不高、準確率受限、還會耗用較高的人力成本,隨著互聯網技術的飛速增長,網站信息的信息量和更新速度都有了較大的提高,依賴人工檢查網站內容更新的方式已經無法滿足人們工作、生活的需求。
發明內容
本發明的目的在于提供可以及時、有效、準確的完成對互聯網內容的更新進行檢測及評價的方法,同時提供一種檢測網站內容更新的檢測評價系統。
本發明的技術方案是:一種網站內容更新檢測及評價方法,包括以下步驟:
(1)抓取原始頁面的URL地址所對應的基礎頁面源代碼,并生成頁面源代碼所對應的文件對象模型DOM樹;
(2)抓取目標頁面的URL地址所對應的基礎頁面源代碼,并生成頁面源代碼所對應的文件對象模型DOM樹;
(3)將目標頁面的DOM樹與原始頁面的DOM樹進行比較,計算原始頁面的DOM樹與目標頁面的DOM樹的相似度,將此相似度值與用戶設置的相似度值進行比較,若大于用戶設定的相似度值,則認為頁面內容沒有更新;若小于用戶設定的相似度值,則認為頁面內容有更新。
優選的是:原始頁面的DOM樹與目標頁面的DOM樹的相似度的方法為:
(1)對原始頁面的頁面源代碼進行md5數字簽名;
(2)對目標頁面的頁面源代碼進行md5數字簽名;
(3)若原始頁面源代碼的md5數字簽名與目標頁面源代碼的md5數字簽名相同,則認為原始頁面的DOM樹與目標頁面的DOM樹相似度為100%,目標頁面沒有更新,結束比較;否則進行步驟(4);
(4)計算目標頁面DOM樹所有直屬子元素與原始頁面DOM樹所有直屬子元素之間的相似度;
(5)計算目標頁面DOM樹每個直屬子元素占這個給DOM樹文檔模型長度的百分比,即元素長度百分比;取步驟(4)中計算得到的目標頁面DOM樹的每個直屬子元素與原始頁面DOM樹每個直屬子元素之間的相似度值,即元素相似度值;將每個直屬子元素的元素長度百分比與該直屬子元素對應的元素相似度值相乘,得到每個元素的DOM樹相似度值;
(6)將目標頁面DOM樹的每個直屬子元素的DOM樹相似度值相加,得到原始頁面的DOM樹與目標頁面的DOM樹的相似度值,若相似度大于設定值,則認為頁面沒有更新,若相似度小于設定的相似度值,則認為頁面有更新。
(7)將步驟(6)中對相似度的計算結果存保存到存儲模塊,同時將最新的頁面URL快照及頁面對應的DOM樹保存到存儲模塊中,用最新的頁面DOM樹替換原始頁面DOM樹,作為之后比較的基礎。
優選的是:目標頁面DOM樹所有直屬子元素與原始頁面DOM樹所有直屬子元素之間的相似度的方法為:
(1)比較目標頁面DOM樹的每個直屬子元素與原始頁面的DOM樹的每個直屬子元素的標簽,若標簽不同,則認為相似度為0%,頁面有更新;若標簽相同,則進行步驟(2);
(2)比較標簽屬性的相似度,即標簽相同的屬性占所有屬性的百分比。
優選的是:目標頁面DOM樹的每個直屬子元素與原始頁面的DOM樹的每個直屬子元素的標簽屬性相似度的比較方法為:
將目標頁面DOM樹的第一個節點與原始頁面DOM樹父節點和所有子節點依次進行比較,直到找到與目標頁面DOM樹的第一個節點相同的節點,若能夠找到相同的標簽,則將此標簽作為基準標簽,其余兄弟標簽的比較以此節點標簽為基準進行比較;若不能找到相同的標簽,則將目標頁面DOM樹的下一個節點進行相同過程的比較。
優選的是:判斷標簽是否相同的標準為:對于容器類標簽,比較標簽名是否相同;對于非容器類標簽,判斷標簽名是否相同,并判斷標簽內容是否相同。
優選的是:對非容器類標簽內容進行比較的方式為純文本比較,即對標簽內的文本內容進行比較。
一種鑒別網站更新的系統,該系統包括:
抓取模塊:抓取原始頁面和目標頁面的URL地址所對應的基礎頁面源代碼,并對原始頁面和目標頁面代碼分別進行md5數字簽名;
解析模塊:解析原始頁面和目標代碼所對應的DOM樹;
簡單比較模塊:對原始頁面和目標頁面代碼的md5數字簽名進行比較;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島英網資訊股份有限公司,未經青島英網資訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310422723.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種草魚養殖配方飼料
- 下一篇:蜂蜜藍莓干
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





