[發明專利]一種基于多分類器融合的敏感網頁過濾方法及系統有效
| 申請號: | 200710065181.6 | 申請日: | 2007-04-05 |
| 公開(公告)號: | CN101281521A | 公開(公告)日: | 2008-10-08 |
| 發明(設計)人: | 胡衛明;陳周耀;吳偶;朱明亮 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;H04L12/26 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分類 融合 敏感 網頁 過濾 方法 系統 | ||
技術領域
本發明涉及信息過濾技術領域,尤指識別含有敏感信息的網頁的方法。
背景技術
由于互聯網敏感信息對于互聯網用戶尤其是青少年造成了極大的危害,因此引起了研究者和業界的廣泛關注。
目前有很多種敏感信息過濾方法,包括黑白名單,IP過濾以及關鍵詞匹配等等過濾手段。總的來說,一方面,這些過濾技術采用一種非常機械的方式,能夠對一些敏感網頁達到100%的過濾效率,響應時間也非常短,但是過濾參數更新的周期只能跟隨著實際敏感網頁的出現而變化,不能夠應對實際敏感網站的快速變化。另一方面,由于網頁的內容信息基本上沒有利用或者很少利用,因此造成了很高的誤過濾率,影響了用戶的正常上網。
基于內容的敏感信息智能識別技術是近年來過濾技術的一個發展方向。目前已有多種基于內容的敏感信息識別方法。
目前的敏感網頁識別方法一般主要建立敏感文本識別基礎之上。因此核心是對文本的處理,首先提取網頁中的文本,然后提取特征,然后利用機器學習里面的分類算法來對特征進行訓練和分類。其中特征提取的方法通常采用的是:(1)人工給定一個關鍵詞列表;(2)利用文本匹配的方法來統計各關鍵詞出現的次數;(3)各關鍵詞出現的次數組成一個向量,經過歸一化等處理后,該向量作為該文本的特征向量。一般給定的關鍵詞數目小于100。然后選取分類器來進行訓練和預測。新加坡Pui?Y.Lee等人利用Kohonen自組織神經網絡作為分類器,取得了較好的實際效果。還存在一些敏感圖像識別方法,中國科學院自動化所楊金鋒等人提出了一種基于內容的敏感圖像識別方法,在CAMPAQ數據庫上取得了超過80%的識別率。
同機械的過濾方法類似,以上方法沒有很好的利用web特征,目前還不能夠達到滿意的效果,例如基于文本的敏感網頁識別不能夠對與敏感主題相關的正常網頁進行很好的識別,基于圖像的敏感網頁識別的誤識別率很高。已存在的融合算法也僅僅是通過與或操作來融合,不能夠根本上提高識別率。
發明內容
現有技術基于文本的敏感網頁識別不能夠對與敏感主題相關的正常網頁進行很好的識別,基于圖像的敏感網頁識別的誤識別率高,采用的融合算法是通過與或操作來融合,不能夠根本上提高識別率,為了解決現有技術的這些問題,本發明的目的是從web網頁特點出發,提供一種基于多分類器融合的敏感網頁過濾方法及系統。
為了實現所述的目的,本發明的一方面,提供基于多分類器融合的敏感網頁過濾方法,包括如下步驟:
步驟S1:獲取目標網頁統一資源定位符的源代碼,進行預處理,用于獲取中文文本信息,獲取網頁中有效圖像集合信息;
步驟S2:基于預處理提供信息,利用決策樹學習中的C4.5算法將輸入網頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;
步驟S3:利用多分類器識別與網頁樣式的指定分配關系,獲得目標網頁;
步驟S4:根據識別結果綜合判斷目標網頁是否敏感,如果敏感,則執行步驟5,如果不敏感,則執行步驟6;
步驟S5:將識別的敏感網頁送入Web瀏覽器,并在瀏覽器中警示用戶所瀏覽網頁含有敏感內容,瀏覽被禁止;
步驟S6:在Web瀏覽器中正常顯示原網頁。
所述分類器識別包括:利用連續敏感文本分類器對以文本為主的網頁樣式進行識別、利用敏感圖像分類器器對以圖像為主的網頁樣式中的圖像集合進行識別和對混合型網頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識別。
所述獲取網頁中有效圖像步驟包括:
步驟11:在預處理階段通過解析網頁超文本標示語言代碼,獲取該網頁所包含每幅圖像的尺寸和位置信息,用于識別目標網頁的整體內容;
步驟12:如果尺寸信息和位置信息符合事先統計好的規則,則將該圖像劃分至有效圖像集合中。
所述決策樹C4.5算法將輸入網頁生成網頁樣式的步驟包括:
步驟21:計算屬性集中網頁統一資源定位符、網頁中文本長度和網頁中圖像基于像素量的分級,得到信息熵和分類前后信息熵的增益變化;
步驟22:將信息熵增益作為分類尺度,給出分類依據,即取最大的信息熵增益的屬性集劃分為最終決策;
步驟23:重復步驟22直到所有屬性集都被劃分,從而形成決策樹和分類規則。
所述利用連續敏感文本分類器對以文字為主的網頁進行識別步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710065181.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:離子色譜-堿液抑制紫外檢測胺類化合物
- 下一篇:大氣燃燒與直噴燃燒組合式爐具





