[發(fā)明專利]一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 200710065181.6 | 申請日: | 2007-04-05 |
| 公開(公告)號: | CN101281521A | 公開(公告)日: | 2008-10-08 |
| 發(fā)明(設(shè)計)人: | 胡衛(wèi)明;陳周耀;吳偶;朱明亮 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62;H04L12/26 |
| 代理公司: | 中科專利商標代理有限責(zé)任公司 | 代理人: | 周國城 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分類 融合 敏感 網(wǎng)頁 過濾 方法 系統(tǒng) | ||
1.?一種基于多分類器融合的敏感網(wǎng)頁過濾方法,包括步驟:
步驟S1:獲取目標網(wǎng)頁統(tǒng)一資源定位符的源代碼,進行預(yù)處理,用于獲取中文文本信息,獲取網(wǎng)頁中有效圖像集合信息;
步驟S2:基于預(yù)處理提供信息,利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;
步驟S3:利用多分類器識別與網(wǎng)頁樣式的指定分配關(guān)系,獲得目標網(wǎng)頁;
步驟S4:根據(jù)識別結(jié)果綜合判斷目標網(wǎng)頁是否敏感,如果敏感,則執(zhí)行步驟5,如果不敏感,則執(zhí)行步驟6;
步驟S5:將識別的敏感網(wǎng)頁送入Web瀏覽器,并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容,瀏覽被禁止;
步驟S6:在Web瀏覽器中正常顯示原網(wǎng)頁。
2.?按權(quán)利要求1所述的方法,其特征在于,所述分類器識別包括:利用連續(xù)敏感文本分類器對以文本為主的網(wǎng)頁樣式進行識別、利用敏感圖像分類器器對以圖像為主的網(wǎng)頁樣式中的圖像集合進行識別和對混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識別。
3.?按權(quán)利要求1所述的方法,其特征在于,所述獲取網(wǎng)頁中有效圖像步驟包括:
步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標示語言代碼,獲取該網(wǎng)頁所包含每幅圖像的尺寸和位置信息,用于識別目標網(wǎng)頁的整體內(nèi)容;
步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計好的規(guī)則,則將該圖像劃分至有效圖像集合中。
4.?按權(quán)利要求1所述的方法,其特征在于,所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括:
步驟21:計算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長度和網(wǎng)頁中圖像基于像素量的分級,得到信息熵和分類前后信息熵的增益變化;
步驟22:將信息熵增益作為分類尺度,給出分類依據(jù),即取最大的信息熵增益的屬性集劃分為最終決策;
步驟23:重復(fù)步驟22直到所有屬性集都被劃分,從而形成決策樹和分類規(guī)則。
5.?按權(quán)利要求2所述的方法,其特征在于,利用連續(xù)敏感文本分類器對以文字為主的網(wǎng)頁進行識別步驟包括:
步驟1):用細胞神經(jīng)網(wǎng)絡(luò)定義N維離散空間上的大型并行計算網(wǎng)絡(luò),將網(wǎng)絡(luò)上的一個節(jié)點作為一個關(guān)鍵詞,將節(jié)點之間的連接描述,用于生成文本中詞匯之間的語義關(guān)系;
步驟2):利用文本中詞匯之間的語義關(guān)系,將節(jié)點之間相互的抑制與激活,用于取得節(jié)點的激活次數(shù)作為文本的統(tǒng)計特征;
步驟3):以統(tǒng)計特征作為輸入,選用支持向量機作為訓(xùn)練以及預(yù)測的分類器,對預(yù)處理網(wǎng)頁中得到的文本進行分類,得到分類結(jié)果。
6.?按權(quán)利要求2所述的方法,其特征在于,利用離散敏感文本分類器對混合型的網(wǎng)頁中文字進行識別:
首先利用向量空間模型提取離散敏感文本的特征;
把離散敏感文本特征輸入到已經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)中,輸出的結(jié)果為該文本輸入敏感的概率值,如果該概率值大于閾值,則得到該文本為敏感分類結(jié)果。
7.?按權(quán)利要求1所述的方法,其特征在于,對混合型網(wǎng)頁的圖像識別與文字識別的信息融合步驟包括:
首先利用圖像識別器對混合型網(wǎng)頁的每幅圖像進行識別,獲得識別結(jié)果為敏感的圖像數(shù)量N1,獲得圖像識別結(jié)果為正常的圖像數(shù)量N2;
離散文本識別的結(jié)果與上述圖像識別的結(jié)果融合,如果結(jié)果大于閾值,則該網(wǎng)頁為敏感,否則為正常網(wǎng)頁。
8.?一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng),其特征在于:
數(shù)據(jù)流的獲取與預(yù)處理單元(1),生成原網(wǎng)頁的文本流和圖像流,并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;
圖像與文本流過濾單元(2),針對不同網(wǎng)頁樣式,使用相應(yīng)的分類器對文本和圖像進行識別;
圖像過濾器與文本過濾器的信息融合單元(3),針對混合型網(wǎng)頁樣式,通過融合結(jié)合圖像過濾器與文本過濾器,得到最終是否為敏感類的識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710065181.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:離子色譜-堿液抑制紫外檢測胺類化合物
- 下一篇:大氣燃燒與直噴燃燒組合式爐具





