[發(fā)明專利]一種基于網(wǎng)頁模板的網(wǎng)站內(nèi)容無障礙檢測方法有效
| 申請?zhí)枺?/td> | 201410028740.6 | 申請日: | 2014-01-22 |
| 公開(公告)號: | CN103838823B | 公開(公告)日: | 2017-02-22 |
| 發(fā)明(設(shè)計(jì))人: | 王燦;李凱;周宇;卜佳俊;陳純 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天正專利事務(wù)所有限公司33201 | 代理人: | 王兵,黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)頁 模板 網(wǎng)站 內(nèi)容 障礙 檢測 方法 | ||
1.一種基于網(wǎng)頁模板的網(wǎng)站內(nèi)容無障礙檢測方法,該方法的特征在于,包括以下步驟:
(1)依據(jù)待檢測網(wǎng)址抓取該網(wǎng)站所有相關(guān)網(wǎng)頁和資源;對所有網(wǎng)頁進(jìn)行渲染并保存渲染結(jié)果;
(2)對步驟(1)中的網(wǎng)頁依據(jù)正文提取算法進(jìn)行正文過濾,去掉網(wǎng)頁DOM樹的正文節(jié)點(diǎn);
(3)對步驟(2)中得到的網(wǎng)頁集合依據(jù)基于html標(biāo)簽的網(wǎng)頁結(jié)構(gòu)度量計(jì)算出網(wǎng)頁之間的距離矩陣M
(4)對M設(shè)定閾值θ,對所有網(wǎng)頁進(jìn)行層次聚類;在每一個(gè)聚類簇中選取若干個(gè)網(wǎng)頁作為該聚類簇的模板構(gòu)成網(wǎng)頁模板集合;
(5)對步驟(4)得到的模板網(wǎng)頁集合進(jìn)行對應(yīng)模板相關(guān)檢測規(guī)則的檢測;
(6)對步驟(2)得到的網(wǎng)頁集合進(jìn)行模板不相關(guān)規(guī)則的檢測并且將檢測結(jié)果與步驟(5)結(jié)果匯總,從而快速得到檢測結(jié)果。
2.根據(jù)權(quán)利要求1中所述的的方法,其特征在于:步驟(2)所述的依據(jù)正文提取算法進(jìn)行正文過濾,具體步驟為:
(2.1)對渲染完畢的網(wǎng)頁構(gòu)建DOM樹,過濾網(wǎng)頁html文本中的與內(nèi)容不相關(guān)的標(biāo)簽;
(2.2)對步驟(2.1)中構(gòu)建的DOM樹計(jì)算每一個(gè)節(jié)點(diǎn)的文本密度,文本密度最大的節(jié)點(diǎn)即為文本塊,其中文本密度的度量方式為:
DSc=∑i∈childrenofcTextDensityi?????????????公式(1)
其中i為網(wǎng)頁DOM樹某個(gè)節(jié)點(diǎn)c的子節(jié)點(diǎn),TextDensityi為節(jié)點(diǎn)i的文本密度,節(jié)點(diǎn)i的文本密度依照組合文本密度定義如下:
其中Ci表示以i為根的子DOM樹的文字?jǐn)?shù),Ti表示子DOM樹的html標(biāo)簽數(shù)LCi表示子DOM樹超鏈接文字?jǐn)?shù),LCi為非超鏈接文字?jǐn)?shù),LTi為超鏈接標(biāo)簽數(shù)目,LCb為<body>標(biāo)簽下超鏈接文字?jǐn)?shù),Cb為<body>標(biāo)簽下文字?jǐn)?shù),e為自然常數(shù),當(dāng)公式中分母為0時(shí),將其設(shè)為1。
3.根據(jù)權(quán)利要求1中所述的方法,其特征在于:步驟(3)所述的計(jì)算網(wǎng)頁結(jié)構(gòu)度量距離矩陣,具體步驟為:
(3.1)統(tǒng)計(jì)網(wǎng)頁D中各html標(biāo)簽在網(wǎng)頁中出現(xiàn)的次數(shù),構(gòu)建特征向量v(D),向量共N維,N為W3C標(biāo)準(zhǔn)允許在html文檔中出現(xiàn)的各類標(biāo)簽總數(shù);
(3.2)對網(wǎng)頁轉(zhuǎn)化后的特征向量進(jìn)行歐式距離的計(jì)算,得到網(wǎng)頁結(jié)構(gòu)距離矩陣M。
4.根據(jù)權(quán)利要求1中所述的方法,其特征在于:步驟(4)所述的層次聚類,具體步驟為:
對所有網(wǎng)頁進(jìn)行自底向上的層次聚類,即初始化每個(gè)網(wǎng)頁作為單獨(dú)的聚類簇,而后依據(jù)設(shè)定的距離的閾值進(jìn)行合并聚類簇,直至達(dá)到閾值θ為止。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410028740.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基片支撐裝置和膜層沉積設(shè)備
- 下一篇:一種三片式橢圓柵極
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





