[發(fā)明專利]多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法在審
| 申請(qǐng)?zhí)枺?/td> | 201310567527.8 | 申請(qǐng)日: | 2013-11-14 |
| 公開(公告)號(hào): | CN103617156A | 公開(公告)日: | 2014-03-05 |
| 發(fā)明(設(shè)計(jì))人: | 劉功申;丁宵云;蘇波;孟魁;寧蔚 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 上海思微知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31237 | 代理人: | 鄭瑋 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 協(xié)議 網(wǎng)絡(luò) 文件 內(nèi)容 檢查 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域的方法,具體涉及一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,更具體涉及一種基于簡化特征的一類特征向量機(jī)的檢測網(wǎng)絡(luò)流量中的敏感信息的方法。?
背景技術(shù)
互聯(lián)網(wǎng)在近幾十年迅猛發(fā)展,使得網(wǎng)絡(luò)已經(jīng)成為了信息化的重要組成部分,然而隨之而來的卻是良莠不齊的信息充斥著互聯(lián)網(wǎng)空間。傳統(tǒng)的網(wǎng)絡(luò)流量敏感信息檢測方法只能檢測部分未編碼的或者非亂序的數(shù)據(jù)包,在檢測這部分信息也都是基于字符串匹配程序?qū)崿F(xiàn)的。但是隨著網(wǎng)絡(luò)服務(wù)的日益更新,傳統(tǒng)的文本敏感信息檢測方法已經(jīng)不能滿足時(shí)代的需求。傳統(tǒng)檢測方法的缺點(diǎn)主要體現(xiàn)在如下幾點(diǎn):?
1、無法處理有編碼的或者亂序抵達(dá)的數(shù)據(jù)包?
許多網(wǎng)絡(luò)協(xié)議為了壓縮傳輸數(shù)據(jù)大小,或者保證傳輸?shù)恼_率,往往使用約定的某些編碼方式來傳輸數(shù)據(jù)包。傳統(tǒng)的檢測信息并不能理解傳送雙方的協(xié)議格式,因此無法正確對(duì)數(shù)據(jù)進(jìn)行解碼。而對(duì)于由于網(wǎng)絡(luò)路徑的選擇不同而亂序,重復(fù)抵達(dá)的數(shù)據(jù)包,更是無法進(jìn)行重組以獲取原始信息。?
2、全文匹配,浪費(fèi)資源?
傳統(tǒng)技術(shù)對(duì)于進(jìn)入系統(tǒng)內(nèi)的文本進(jìn)行全文匹配才能得出其是否包含不良信息的結(jié)論,雖然研究人員為了優(yōu)化搜索難度,提出了KMP算法,Boyer-Moore算法等,降低了系統(tǒng)處理的時(shí)間復(fù)雜度,但在最差的情況下,復(fù)雜度依然在O(m*n)。?
3、不良特征需要預(yù)先定義?
為了檢測出不良文本,傳統(tǒng)技術(shù)必須要預(yù)先定義需要被過濾的敏感信息,這就需要一個(gè)巨大的不良信息數(shù)據(jù)庫作為基礎(chǔ)。然而,一旦有新的不良信息出現(xiàn),數(shù)據(jù)庫的更新往往是滯后的,這就使得檢測系統(tǒng)沒有很好的實(shí)時(shí)性。?
4、對(duì)于不良信息檢測的魯棒性不強(qiáng)?
為了應(yīng)付檢測系統(tǒng),文本往往被構(gòu)造成與不良信息數(shù)據(jù)庫有略微差別,但是人可以識(shí)別的模式。例如使用空格將敏感詞語隔開,使用別字等,這個(gè)就為構(gòu)造不良信息數(shù)據(jù)庫構(gòu)成了難度。?
雖然研究人員使用分類這一概念來解決這個(gè)海量數(shù)據(jù)挖掘的問題,提出了一類支持向量機(jī)的模型,但是在實(shí)際應(yīng)用時(shí)卻存在一些不足。其中比較突出的一點(diǎn)就是維數(shù)爆炸。這是因?yàn)槲谋緝?nèi)包含的詞語量非常大,商務(wù)印書館出版的《現(xiàn)代漢語詞典》第5版(2005年5月出版),其中收錄了65000個(gè)詞,使用如此高維度對(duì)存儲(chǔ)資源和計(jì)算能力是一種嚴(yán)重浪費(fèi)。?
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)中存在上述缺陷,提供一種基于簡化特征的一類特征向量機(jī)的檢測網(wǎng)絡(luò)流量中的敏感信息的新方法,該方法能很好地解決數(shù)據(jù)傳統(tǒng)檢測方法面臨的問題。?
為了實(shí)現(xiàn)上述技術(shù)目的,根據(jù)本發(fā)明,提供了一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機(jī)來檢測網(wǎng)絡(luò)流量中的敏感信息,其包括:首先識(shí)別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進(jìn)行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對(duì)于復(fù)原的文本進(jìn)行分詞,使用特征簡約算法提取特征向量,并進(jìn)行分類。?
優(yōu)選地,特征向量為一些名詞和動(dòng)詞。?
優(yōu)選地,特征簡約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗(yàn)方法。?
優(yōu)選地,基于文檔頻率方法使用特征詞在一個(gè)類別中出現(xiàn)的文檔數(shù)量來表?示這個(gè)特征詞與該類別的相關(guān)度,而且在某個(gè)類別中的越多的文檔中出現(xiàn)的特征詞被保留的可能性越大。?
優(yōu)選地,信息增益方法通過計(jì)算系統(tǒng)引入該特征和未引入該特征的前后信息量的差值定義這個(gè)特征給系統(tǒng)帶來的信息量來作為其對(duì)檢測某個(gè)類別的依據(jù)。?
優(yōu)選地,開方擬和檢驗(yàn)方法通過觀察實(shí)際值與理論值的偏差來確定假設(shè)該特征對(duì)系統(tǒng)有很大影響的假定是否正確。?
根據(jù)本發(fā)明,提供了一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡化特征的一類特征向量機(jī)來檢測網(wǎng)絡(luò)流量中的敏感信息,其包括:?
第一步,使用已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫,對(duì)其進(jìn)行分詞,提取所有的名詞和動(dòng)詞作為候選特征向量;?
第二步,使用特征簡約算法對(duì)候選特征向量進(jìn)行提取;?
第三步,使用一類支持向量機(jī)對(duì)已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫進(jìn)行訓(xùn)練,其中使用在第二步中從所有向量中提取出的特征向量,由此獲得分類的標(biāo)準(zhǔn);?
第四步,確定數(shù)據(jù)包的傳輸協(xié)議,并根據(jù)RFC對(duì)于不同傳輸層和應(yīng)用層協(xié)議的定義來提取、復(fù)原文本信息;?
第五步,對(duì)于第四步中的復(fù)原的文本信息,進(jìn)行分詞,特征向量提取;然后根據(jù)第三步中的訓(xùn)練結(jié)果使用SVM進(jìn)行分類,檢測其是否為不良文本。?
優(yōu)選地,提取所有的名詞和動(dòng)詞作為候選特征向量。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310567527.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 圖像診斷裝置、醫(yī)用系統(tǒng)以及協(xié)議管理方法
- 一種自動(dòng)協(xié)議識(shí)別方法及系統(tǒng)
- 客戶端中遞送協(xié)議數(shù)據(jù)單元的方法及相關(guān)裝置
- 遠(yuǎn)程通訊系統(tǒng)
- 一種基于可拼裝通信協(xié)議棧的通信方法及系統(tǒng)
- 一種實(shí)現(xiàn)國產(chǎn)平臺(tái)PXEBOOT的協(xié)議架構(gòu)
- CBTC通信系統(tǒng)協(xié)議解析方法、協(xié)議庫管理方法
- 一種協(xié)議轉(zhuǎn)換的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于燈光控制的協(xié)議轉(zhuǎn)換系統(tǒng)及方法
- 一種通用工藝人工智能物聯(lián)網(wǎng)網(wǎng)關(guān)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





