[發明專利]一種基于網頁模板的網站內容無障礙檢測方法有效

申請號：	201410028740.6	申請日：	2014-01-22
公開（公告）號：	CN103838823B	公開（公告）日：	2017-02-22
發明（設計）人：	王燦;李凱;周宇;卜佳俊;陳純	申請（專利權）人：	浙江大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	杭州天正專利事務所有限公司33201	代理人：	王兵,黃美娟
地址：	310027 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于網頁模板網站內容障礙檢測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及網頁無障礙檢測與改造方法的領域，特別是一種基于網頁模板的網站內容無障礙檢測方法。

背景技術

在互聯網日益發達的今天，殘疾人對網絡的使用由于自身的問題存在障礙，為緩解這一問題，2012年，工信部頒布了最新版本的通信行業標準《YD/T1761‐2012信息無障礙‐身體機能差異人群‐網站設計無障礙技術要求》，對于網站設計提出了無障礙的要求，為此需要對現有網站進行無障礙的檢測。網頁的網頁數目非常多，直接進行檢測無論從效率上還是準確率上都會有困難，難以實現。

根據檢測規則是否與能夠直接檢測網頁模板，可以將檢測規則分為模板相關和模板不相關。如果能夠準確找出網站所有模板網頁，這將大大提高模板相關規則的無障礙檢測效率。傳統的模板提取算法沒有考慮到正文內容對于模板提取效果的負面影響。

發明內容

本發明克服了現有技術的上述缺點，提出了一種基于正文過濾和網頁結構聚類的模板提取算法，在此算法的基礎上提出了基于網頁模板的網站內容無障礙檢測方法。利用正文過濾實現對正文的提取構建目標的網頁DOM樹。進而對去除正文后的網頁集合進行聚類，從中找出模板，利用模板進行檢測，避免了對海量網頁的逐一檢測。本發明提供了一種基于網頁模板的網站內容無障礙檢測方法，包括以下步驟：

(1)依據待檢測網址獲取該網站所有相關網頁和資源；對所有網頁進行渲染并保存渲染結果；

(2)對步驟(1)中的網頁依據正文提取算法進行正文過濾，去掉網頁DOM樹的正文節點；

(3)對步驟(2)中得到的網頁集合依據基于html標簽的網頁結構度量計算出網頁之間的距離矩陣M

(4)對M設定閾值θ，對所有網頁進行層次聚類；在每一個聚類簇中選取若干個網頁作為該聚類簇的模板構成網頁模板集合；

(5)對步驟(4)得到的模板網頁集合進行對應模板相關檢測規則的檢測；

(6)對步驟(2)得到的網頁集合進行模板不相關規則的檢測并且將檢測結果與步驟(5)結果匯總，從而快速得到檢測結果。

對于步驟(2)中的正文過濾，包括以下步驟：

(2.1)對所有網頁構建DOM樹，其中過濾網頁html文本中與內容不相關的html標簽；

(2.2)對步驟(2.1)中構建的DOM樹計算每一個節點的文本密度，文本密度最大的節點即為文本塊，其中文本密度的度量方式為：

DS_c＝∑_{i∈childrenofc}TextDensity_i?????????????公式(1)

其中i為節點c的子節點，TextDensity_i為節點i的文本密度，本發明采用的組合文本密度，考慮了某些超鏈接塊中文本密度大，對正文模塊進行干擾的特點，節點i的組合文本密度依照組合文本密度定義如下：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。