[發明專利]基于CART決策樹的URL分類方法及裝置有效
| 申請號: | 201611195732.6 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN108228656B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 李乃鵬;胡煒 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 cart 決策樹 url 分類 方法 裝置 | ||
1.一種基于CART決策樹的URL分類方法,其特征在于,包括:
根據統一資源定位符URL的預設特征以及各個所述預設特征的類別構建用于訓練CART決策樹的訓練集;
根據各所述預設特征對所述訓練集的分類能力確定所述CART決策樹的每一節點的特征;
根據所述訓練集和預設終止條件從所述CART決策樹的根節點開始遞歸每一節點,以構建所述CART決策樹;
利用構建的所述CART決策樹對爬蟲系統爬取的URL的特征進行分類,以根據所述分類的結果對所述爬取的URL進行分類;
所述根據各所述預設特征對所述訓練集的分類能力確定所述CART決策樹的每一節點的特征,包括:
根據各所述預設特征中基尼指數最小的特征確定所述CART決策樹的每一節點的特征;
其中,所述URL的預設特征包括以下任意一項及其組合:
URL標題字符串、URL所在HTML標記區域、URL域名、URL虛擬目錄字段、URL內鏈標識、URL外鏈標識;
相應地,所述預設特征的類別包括以下任意一項及其組合:
表示優先爬取的A類、表示一般爬取的B類以及表示不建議爬取的C類。
2.根據權利要求1所述的方法,其特征在于,所述預設終止條件包括:
節點的URL樣本個數小于第一預設閾值;
樣本集的基尼指數小于第二預設閾值,其中,所述樣本集為所述訓練集的一個子集。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
采用預設CART剪枝算法對構建的所述CART決策樹進行剪枝。
4.一種基于CART決策樹的URL分類裝置,其特征在于,包括:
訓練集構建單元,用于根據統一資源定位符URL的預設特征以及各個所述預設特征的類別構建用于訓練CART決策樹的訓練集;
節點確定單元,用于根據各所述預設特征對所述訓練集的分類能力確定所述CART決策樹的每一節點的特征;
決策樹構建單元,用于根據所述訓練集和預設終止條件從所述CART決策樹的根節點開始遞歸每一節點,以構建所述CART決策樹;
URL分類單元,用于利用構建的所述CART決策樹對爬蟲系統爬取的URL的特征進行分類,以根據所述分類的結果對所述爬取的URL進行分類;
所述節點確定單元具體用于根據各所述預設特征中基尼指數最小的特征確定所述CART決策樹的每一節點的特征;
其中,所述URL的預設特征包括以下任意一項及其組合:
URL標題字符串、URL所在HTML標記區域、URL域名、URL虛擬目錄字段、URL內鏈標識、URL外鏈標識;
相應地,所述預設特征的類別包括以下任意一項及其組合:
表示優先爬取的A類、表示一般爬取的B類以及表示不建議爬取的C類。
5.根據權利要求4所述的裝置,其特征在于,所述預設終止條件包括:
節點的URL樣本個數小于第一預設閾值;
樣本集的基尼指數小于第二預設閾值,其中,所述樣本集為所述訓練集的一個子集。
6.根據權利要求4所述的裝置,其特征在于,所述裝置還包括:
剪枝單元,用于采用預設CART剪枝算法對構建的所述CART決策樹進行剪枝。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611195732.6/1.html,轉載請聲明來源鉆瓜專利網。





