[發明專利]一種基于區塊樹的Web頁面鏈接塊的識別方法有效
| 申請號: | 201410185937.0 | 申請日: | 2014-05-05 |
| 公開(公告)號: | CN103927397B | 公開(公告)日: | 2017-02-22 |
| 發明(設計)人: | 谷瓊;王賢明;朱莉 | 申請(專利權)人: | 湖北文理學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 張火春 |
| 地址: | 441053 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 區塊 web 頁面 鏈接 識別 方法 | ||
1.一種基于區塊樹的Web頁面鏈接塊的識別方法,其特征在于,包括下述步驟:
步驟1、輸入網頁集合;
步驟2、對html網頁文檔進行預處理,包括去除腳本代碼,并對HTML文檔標簽進行自動標簽補全;
步驟3、用區塊樹的構建方法對HTML代碼構建區塊樹;
步驟4、利用四個判別條件對區塊樹判斷鏈接塊;
定義如下概念:
鏈接文本:也稱錨文本,即在Web頁面的HTML代碼中處于<a>和</a>之間的文本,不包含其間的非文本內容;
普通文本:也簡稱純文本,即在HTML代碼中,處于HTML標簽區域之外、而又不在<a>和</a>之間的所有文本;
計算文本長度遵從如下規則:
①英文等字符以單詞為統計單位,即一個單詞長度計為1,如果若干個連續英文字符不構成單詞,其長度也將計1;
②中文等字符以單個字為統計單位,即一個漢字長度計為1;
③數字以一個完整數字為統計單位,即一個完整數字長度計為1;
④日期時間字符串以日期時間整體為統計單位,即一個完整日期時間串長度計為1;
⑤標點符號與漢字統計規則一樣,但是若相鄰的若干個標點符號相同,則長度只計1;
鏈接塊的描述和判別規則如下:
設區塊樹為p層,區塊樹中的區塊數量為n,則各層區塊數分別記為n1,n2,…,np,所以,區塊元素記為其中m表示該區塊元素在區塊樹中的層級,i表示該區塊元素屬于第m層的序號,則
設區塊中鏈接數為普通文本的長度為鏈接文本長度為若該區塊同時滿足如下條件,則該區塊稱為鏈接區塊,簡稱鏈接塊;
步驟5、若區塊被判別為鏈接塊,則將其加入到鏈接塊列表中,否則舍棄,進而判斷是否到了區塊樹的最后一個結點;若不是最后一個結點,則重復上述步驟4,直到最后一個結點,所有的區塊樹判別結束,則結束識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北文理學院,未經湖北文理學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410185937.0/1.html,轉載請聲明來源鉆瓜專利網。





