[發明專利]一種基于多分類器融合的敏感網頁過濾方法及系統有效
| 申請號: | 200710065181.6 | 申請日: | 2007-04-05 |
| 公開(公告)號: | CN101281521A | 公開(公告)日: | 2008-10-08 |
| 發明(設計)人: | 胡衛明;陳周耀;吳偶;朱明亮 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;H04L12/26 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分類 融合 敏感 網頁 過濾 方法 系統 | ||
1.?一種基于多分類器融合的敏感網頁過濾方法,包括步驟:
步驟S1:獲取目標網頁統一資源定位符的源代碼,進行預處理,用于獲取中文文本信息,獲取網頁中有效圖像集合信息;
步驟S2:基于預處理提供信息,利用決策樹學習中的C4.5算法將輸入網頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;
步驟S3:利用多分類器識別與網頁樣式的指定分配關系,獲得目標網頁;
步驟S4:根據識別結果綜合判斷目標網頁是否敏感,如果敏感,則執行步驟5,如果不敏感,則執行步驟6;
步驟S5:將識別的敏感網頁送入Web瀏覽器,并在瀏覽器中警示用戶所瀏覽網頁含有敏感內容,瀏覽被禁止;
步驟S6:在Web瀏覽器中正常顯示原網頁。
2.?按權利要求1所述的方法,其特征在于,所述分類器識別包括:利用連續敏感文本分類器對以文本為主的網頁樣式進行識別、利用敏感圖像分類器器對以圖像為主的網頁樣式中的圖像集合進行識別和對混合型網頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識別。
3.?按權利要求1所述的方法,其特征在于,所述獲取網頁中有效圖像步驟包括:
步驟11:在預處理階段通過解析網頁超文本標示語言代碼,獲取該網頁所包含每幅圖像的尺寸和位置信息,用于識別目標網頁的整體內容;
步驟12:如果尺寸信息和位置信息符合事先統計好的規則,則將該圖像劃分至有效圖像集合中。
4.?按權利要求1所述的方法,其特征在于,所述決策樹C4.5算法將輸入網頁生成網頁樣式的步驟包括:
步驟21:計算屬性集中網頁統一資源定位符、網頁中文本長度和網頁中圖像基于像素量的分級,得到信息熵和分類前后信息熵的增益變化;
步驟22:將信息熵增益作為分類尺度,給出分類依據,即取最大的信息熵增益的屬性集劃分為最終決策;
步驟23:重復步驟22直到所有屬性集都被劃分,從而形成決策樹和分類規則。
5.?按權利要求2所述的方法,其特征在于,利用連續敏感文本分類器對以文字為主的網頁進行識別步驟包括:
步驟1):用細胞神經網絡定義N維離散空間上的大型并行計算網絡,將網絡上的一個節點作為一個關鍵詞,將節點之間的連接描述,用于生成文本中詞匯之間的語義關系;
步驟2):利用文本中詞匯之間的語義關系,將節點之間相互的抑制與激活,用于取得節點的激活次數作為文本的統計特征;
步驟3):以統計特征作為輸入,選用支持向量機作為訓練以及預測的分類器,對預處理網頁中得到的文本進行分類,得到分類結果。
6.?按權利要求2所述的方法,其特征在于,利用離散敏感文本分類器對混合型的網頁中文字進行識別:
首先利用向量空間模型提取離散敏感文本的特征;
把離散敏感文本特征輸入到已經訓練好的貝葉斯網絡中,輸出的結果為該文本輸入敏感的概率值,如果該概率值大于閾值,則得到該文本為敏感分類結果。
7.?按權利要求1所述的方法,其特征在于,對混合型網頁的圖像識別與文字識別的信息融合步驟包括:
首先利用圖像識別器對混合型網頁的每幅圖像進行識別,獲得識別結果為敏感的圖像數量N1,獲得圖像識別結果為正常的圖像數量N2;
離散文本識別的結果與上述圖像識別的結果融合,如果結果大于閾值,則該網頁為敏感,否則為正常網頁。
8.?一種基于多分類器融合的敏感網頁過濾系統,其特征在于:
數據流的獲取與預處理單元(1),生成原網頁的文本流和圖像流,并以此為依據將原網頁分為網頁樣式;
圖像與文本流過濾單元(2),針對不同網頁樣式,使用相應的分類器對文本和圖像進行識別;
圖像過濾器與文本過濾器的信息融合單元(3),針對混合型網頁樣式,通過融合結合圖像過濾器與文本過濾器,得到最終是否為敏感類的識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710065181.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:離子色譜-堿液抑制紫外檢測胺類化合物
- 下一篇:大氣燃燒與直噴燃燒組合式爐具





