[發(fā)明專利]基于隨機(jī)森林的協(xié)議加密算法類型識別方法在審
| 申請?zhí)枺?/td> | 201910368967.8 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110138849A | 公開(公告)日: | 2019-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 楊武 | 申請(專利權(quán))人: | 哈爾濱英賽克信息技術(shù)有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L29/06;H04L9/08;G06K9/62;H04L9/14 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150000 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 隨機(jī)森林 決策樹 加密算法 分類結(jié)果 加密類型 加密應(yīng)用 訓(xùn)練子集 結(jié)點(diǎn) 應(yīng)用密文 分析 采樣法 測試集 訓(xùn)練集 構(gòu)建 密文 互聯(lián)網(wǎng) 投票 | ||
本發(fā)明公開了一種基于隨機(jī)森林的協(xié)議加密算法類型識別方法,所述方法包括如下步驟:(1)從HTTPS數(shù)據(jù)流中提取加密應(yīng)用數(shù)據(jù),分析提取密文特性并構(gòu)建特征;(2)將訓(xùn)練集輸入到包含10棵C4.5決策樹的隨機(jī)森林中,每棵決策樹使用自助采樣法選取訓(xùn)練子集;(3)用訓(xùn)練子集訓(xùn)練隨機(jī)森林的決策樹;(4)當(dāng)所有決策樹訓(xùn)練完畢后,選擇結(jié)點(diǎn)上占比最大的加密類型作為該結(jié)點(diǎn)的加密類型;(5)將測試集輸入到使用HTTPS協(xié)議應(yīng)用密文訓(xùn)練的隨機(jī)森林模型中;(6)隨機(jī)森林中的每棵決策樹給出分類結(jié)果,依據(jù)相對多數(shù)投票法則選出最終的分類結(jié)果。該方法可以對互聯(lián)網(wǎng)上的加密應(yīng)用數(shù)據(jù)進(jìn)行初步的分析,分析其加密算法類型。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息安全領(lǐng)域,涉及一種對互聯(lián)網(wǎng)上存在應(yīng)用層加密的加密算法類型識別的方法。
背景技術(shù)
近年移動終端的逐漸普及和網(wǎng)絡(luò)的蓬勃發(fā)展催生了新型互聯(lián)網(wǎng)結(jié)構(gòu)的誕生,促進(jìn)了網(wǎng)絡(luò)流量的增長。在如此龐大的網(wǎng)絡(luò)背后,對網(wǎng)絡(luò)流量的有效監(jiān)管是網(wǎng)絡(luò)安全保護(hù)的基石。用戶在網(wǎng)絡(luò)應(yīng)用上保存了大量隱私信息,尤其是在網(wǎng)上支付、社交網(wǎng)絡(luò)等應(yīng)用上,這些信息若被惡意流量或應(yīng)用泄露,將會對用戶個(gè)人信息安全造成極大威脅,故對于用戶信息的保密尤為重要,現(xiàn)今許多互聯(lián)網(wǎng)流量都對上層數(shù)據(jù)進(jìn)行了加密。但是對于網(wǎng)絡(luò)監(jiān)管來說,必須要對各個(gè)應(yīng)用進(jìn)行規(guī)范和督查,因此,對于線上加密流量的分析尤為重要。
用戶主要產(chǎn)生的流量大致來源于分享音樂、視頻等文件,瀏覽網(wǎng)絡(luò)上的網(wǎng)頁,收發(fā)電子郵件,社交中的聊天、視頻等操作,網(wǎng)上購物等。網(wǎng)頁、郵件內(nèi)容主要是通過HTTP、HTTPS、SMTP、POP3協(xié)議進(jìn)行傳輸,其中HTTPS、SSH協(xié)議涉及到加密流量的傳輸,用以保證用戶信息的安全傳輸。
許多流量都采用了加密應(yīng)用數(shù)據(jù)的方法來保證用戶信息在鏈路傳輸時(shí)的安全性,例如Skype、HTTP、SSH等。對于加密應(yīng)用數(shù)據(jù)來說,對該部分?jǐn)?shù)據(jù)文本特征進(jìn)行分析,與一定的算法相結(jié)合,可以識別出密文的具體加密算法。對于加密數(shù)據(jù)的研究現(xiàn)在也逐漸引入了機(jī)器學(xué)習(xí)算法。Alshammari等使用了聚類方法來識別VoIP流量,改變以往基于IP地址、端口的方式,采用流特征的方式較好的識別了GTalk、Skype流量,引入了C4.5決策樹、遺傳編程等算法,在著重分析了加密流量的屬性特征基礎(chǔ)上,實(shí)現(xiàn)了對加密流量的有效分類。對于加密的SSH協(xié)議,Dusi等使用了GMM算法、SVM算法,以數(shù)據(jù)流的包大小、方向?yàn)樘卣鲗f(xié)議流量進(jìn)行識別,并取得了較好的成果。李繼中等將基于貝葉斯決策與加密算法的識別模型相結(jié)合,針對密碼算法指令條數(shù)、子程序指令使用頻度和基本連續(xù)塊信息頻度等方式來實(shí)現(xiàn)加密算法的度量,針對加密軟件MD5calculator、keygen等,成功的識別出了上述加密軟件中的核心加密算法。吳楊等使用改進(jìn)型K-Means算法對由AES、Camellia、DES、3DES等加密算法加密的文件內(nèi)容進(jìn)行初始聚類劃分,最終識別的精確率超過85%,取得了較好的實(shí)驗(yàn)成果。
將機(jī)器學(xué)習(xí)的算法思想與加密算法識別相結(jié)合有著一定的優(yōu)勢:首先,以數(shù)據(jù)流為單位的特征無法被隱藏,即使通過加密,也能通過對數(shù)據(jù)流進(jìn)行一定的辨別和歸類;其次,統(tǒng)計(jì)特征是對整體數(shù)據(jù)流進(jìn)行分析得到的,不需要對所有數(shù)據(jù)包逐個(gè)進(jìn)行深層包處理和高層應(yīng)用協(xié)議識別,可以加快協(xié)議的識別效率。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于隨機(jī)森林的協(xié)議加密算法類型識別方法,該方法可以對互聯(lián)網(wǎng)上的加密應(yīng)用數(shù)據(jù)進(jìn)行初步的分析,分析其加密算法類型。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種基于隨機(jī)森林的協(xié)議加密算法類型識別方法,包括如下步驟:
步驟一、訓(xùn)練階段:
(1)從HTTPS數(shù)據(jù)流中提取加密應(yīng)用數(shù)據(jù),分析提取密文特性并構(gòu)建特征,組成具有M維的特征F={f1,f2,...,fM},M=11,通過該方式將原始數(shù)據(jù)處理為可以被隨機(jī)森林識別的數(shù)據(jù)集,數(shù)據(jù)集包括訓(xùn)練集和測試集兩個(gè)部分;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱英賽克信息技術(shù)有限公司,未經(jīng)哈爾濱英賽克信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910368967.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于條件隨機(jī)森林的笑臉檢測器及方法
- 隨機(jī)森林模型訓(xùn)練的方法及模型訓(xùn)練控制系統(tǒng)
- 隨機(jī)森林模型訓(xùn)練方法及裝置
- 基于結(jié)構(gòu)化隨機(jī)森林編碼器的眼底視網(wǎng)膜血管分割方法
- 一種基于隨機(jī)森林模型的慢性肝病風(fēng)險(xiǎn)評估系統(tǒng)
- 基于改進(jìn)隨機(jī)森林方法的風(fēng)光發(fā)電出力的短期預(yù)測方法
- 交互式隨機(jī)森林子樹篩選方法、裝置、設(shè)備及可讀介質(zhì)
- 交互式隨機(jī)森林集成方法、設(shè)備及可讀存儲介質(zhì)
- 一種基于深度森林的眼底圖像血管分割方法和系統(tǒng)
- 隨機(jī)森林的生成方法、裝置、電子設(shè)備及存儲介質(zhì)





