[發明專利]Web網站死鏈檢測方法無效
| 申請號: | 201210264476.7 | 申請日: | 2012-07-29 |
| 公開(公告)號: | CN102752154A | 公開(公告)日: | 2012-10-24 |
| 發明(設計)人: | 蔡皖東;姚卓;姚燁 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08;G06F17/30 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | web 網站 檢測 方法 | ||
技術領域
本發明涉及一種Web網站檢測方法,特別是涉及一種Web網站死鏈檢測方法。
背景技術
死鏈是指Web網站中處于路徑不可達狀態的Web鏈接,它是導致網站性能下降的重要原因。隨著互聯網的快速發展,網站中的各種信息在急速增長,維護網站的內容完整性以及性能變得十分復雜。Web網頁的一個重要特點是動態性,即網頁內容可以任意增加、刪除和更新。這一特點使Web服務成為具有吸引力的信息傳播媒介,同時也面臨著死鏈問題的挑戰,Web鏈接相互引用加劇了死鏈的產生,損害了網站內容完整性,導致網站性能嚴重下降。
死鏈的影響是多方面的。佐治亞理工學院的GVU中心曾做過一項調查發現,大約60%的用戶反映死鏈問題是使用網絡時最反感的問題。此外,為了提高搜索效率和搜索結果的質量,搜索引擎很少會將帶有大量死鏈的站點放在前面,因此死鏈會導致網站被搜索引擎降權。
研究發現,一般Web網頁的平均預期壽命是44天,URL的隨機測試集合在四年的時間里損失了大約67%的URL才達到穩定狀態。Spinellies對發表在ACM和IEEE上的論文鏈接的可訪問性做了大量調查實驗之后,發現28%的URL在五年之后不可用,41%在七年之后不可用,并且在所有不可用的網絡鏈接中,大約60%是404錯誤(國際組織規定的一類客戶端錯誤,當Web服務器不希望精確指出請求為何被拒絕或者沒有找到任何可以匹配的URL資源時使用該狀態碼)。因此,有效地檢測出網站里的各種死鏈,對于維護網站性能、保持網站內容完整性變得十分重要。由于一個大型網站上的Web鏈接數以萬計,鏈接有效性檢驗是一個非常耗時的任務。因此,如何快速、準確和自動地檢測Web網站中的死鏈值得深入研究。
文獻1“B.Haslhofer,N.Popitsch.DSNotify-detecting?and?fixing?broken?links?in?linked?data?sets[c]//DEXA09.20th?International?Colocated?with?DEXA.Austria,Linz,2009:89-93”設計了一個LOD數據源的加載項,通過比較兩個鏈接的相似值來判斷404錯誤鏈接是否發生轉移或者被刪除,并在客戶端瀏覽器顯示不同的檢測信息,從而部分保證LOD數據源的鏈接完整性。該方法只面對客戶端用戶,因此只能保證用戶體驗,不能根本解決死鏈問題。其次,該方法需要瀏覽器頻繁詢問加載項,造成瀏覽器性能下降,并且檢測效率低。
文獻2“N.Popitsch,B.Haslhofer.Dsnotify:handling?broken?links?in?the?web?of?data[c]//Proc?of?WWW.New?york,NY,USA:ACM,2010:761-770”首先定義了兩種鏈接錯誤類型,結構錯誤鏈接和語義錯誤鏈接,接著定義了引起結構錯誤的鏈接出現的事件,最后根據改進前人設計的11種不同解決方案,提出了DSNotify策略。該策略提取出每個鏈接的特征向量,根據對鏈接的元數據和內容的判斷,把鏈接分別放到3個索引隊列,最后由索引來判斷產生死鏈的事件。該方法的目的是修改發送404錯誤的頁面,所以只提取和檢測與重定向和刪除的狀態碼相關的鏈接,但所查找到的死鏈覆蓋面不全面。
發明內容
為了克服現有的Web網站死鏈檢測方法覆蓋率低的不足,本發明提供一種Web網站死鏈檢測方法。該方法首先根據Web鏈接的調度過程修改遍歷策略,自動獲取網站鏈接信息,得到較全面的網站鏈接信息。然后對新生成的URL庫進行精簡,去除重復的網頁并且篩選出滿足條件的鏈接,提高數據采集效率。最后根據死鏈產生的原因和分類,給出了對應的檢測方案,可以提高Web網站死鏈檢測的覆蓋率。
本發明解決其技術問題所采用的技術方案是:一種Web網站死鏈檢測方法,其特點是包括以下步驟:
(1)判斷種子列表seedURLs中的URL的合法性,如果合法放到URL庫A中,否則把該URL和錯誤原因記錄到死鏈的errorSite隊列中,進入步驟(6)。
(2)死鏈分析和判斷操作:
①如果A非空,取出一個URLX放入緩存的NamedSite隊列中,如果X的域名不是數字形式,把X放到隊列dnsSite隊列中,進入步驟②,否則進入步驟④;如果A為空,算法結束,死鏈判斷完畢,進入步驟(6);
②向DNS服務器發送鏈接X的域名查詢請求;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210264476.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:集團無繩電話交換機
- 下一篇:一種新型的鋰離子聚合物電池及其封裝工藝





