[發(fā)明專(zhuān)利]基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210134214.2 | 申請(qǐng)日: | 2022-02-14 |
| 公開(kāi)(公告)號(hào): | CN114500387A | 公開(kāi)(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 陳龍;湯婷婷;韓世凱 | 申請(qǐng)(專(zhuān)利權(quán))人: | 重慶郵電大學(xué) |
| 主分類(lèi)號(hào): | H04L47/125 | 分類(lèi)號(hào): | H04L47/125;H04L47/2441;H04L47/2483;H04L69/22;G06N3/00;G06N20/00 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 機(jī)器 學(xué)習(xí) 移動(dòng) 應(yīng)用 流量 識(shí)別 方法 系統(tǒng) | ||
1.基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別方法,其特征在于:該方法包括以下步驟:
S1:流量采集階段:采集相應(yīng)的APP流量,制作訓(xùn)練模型所需的流量數(shù)據(jù)集;
S2:流量處理階段:對(duì)采集到的數(shù)據(jù)包,進(jìn)行流量數(shù)據(jù)的預(yù)處理;
S3:特征提取階段:提取流量數(shù)據(jù)的37個(gè)特征值,用于模型的訓(xùn)練;
S4:流量標(biāo)記階段:為每條特征流量標(biāo)記真實(shí)的應(yīng)用類(lèi)別;
S5:流量平衡階段:處理類(lèi)別分布不平衡的應(yīng)用流量問(wèn)題;
S6:模型訓(xùn)練階段:將特征樣本分類(lèi)訓(xùn)練,構(gòu)建APP流量特征庫(kù)。
2.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別方法,其特征在于:所述S1具體包括:
S11:手機(jī)獲取并運(yùn)行APK文件,同時(shí)連接PC端熱點(diǎn);
S12:PC端開(kāi)啟wireshark,采集來(lái)自手機(jī)的移動(dòng)應(yīng)用流量;
S13:采集目標(biāo)應(yīng)用時(shí),在手機(jī)終端只運(yùn)行此應(yīng)用程序,并且關(guān)閉手機(jī)系統(tǒng)帶有的程序后臺(tái)運(yùn)行功能,禁止后臺(tái)運(yùn)行,以防止有其他應(yīng)用以及安卓操作系統(tǒng)產(chǎn)生的后臺(tái)流量帶來(lái)干擾;
S14:每個(gè)應(yīng)用采集的流量數(shù)據(jù)以后續(xù)生成的特征數(shù)據(jù)量為依據(jù),采集目標(biāo)為:采集到的流量經(jīng)過(guò)流量處理和生成特征后,特征數(shù)據(jù)量能達(dá)到3000左右;
S15:采集的數(shù)據(jù)集中,記錄著每一個(gè)數(shù)據(jù)包詳細(xì)信息,包括:時(shí)間、數(shù)據(jù)包大小、源IP地址、目的IP地址、源端口、目的端口、協(xié)議和TCP/IP標(biāo)志;
S16:在采集數(shù)據(jù)后,應(yīng)用流量以pcap格式轉(zhuǎn)儲(chǔ)在本地。
3.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別方法,其特征在于:所述步驟S2具體包括:
S21:利用wireshark工具過(guò)濾刪除錯(cuò)誤、重傳的數(shù)據(jù)包;
S22:將pcap文件利用tshark轉(zhuǎn)儲(chǔ)為后期可處理的csv文件;tshark是網(wǎng)絡(luò)分析工具wireshark下的一個(gè)工具,對(duì)本地存儲(chǔ)的pcap文件進(jìn)行解析,通過(guò)命令提取我們所需的數(shù)據(jù)內(nèi)容,包括:源IP地址、目的IP地址、源端口、目的端口、數(shù)據(jù)包大小以及兩個(gè)數(shù)據(jù)包發(fā)送的間隔時(shí)間,將解析到的數(shù)據(jù)重定向到CSV文件,為后續(xù)的特征提取模塊做準(zhǔn)備。
4.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別方法,其特征在于:所述步驟S3具體包括:
S31:進(jìn)行過(guò)預(yù)處理的流量數(shù)據(jù)集,首先被離散成突發(fā)形式的網(wǎng)絡(luò)流量塊;
S32:在每個(gè)突發(fā)內(nèi),依據(jù)相同的四元組,即源IP地址、目的IP地址、源端口和目的端口,將突發(fā)細(xì)分為若干條突發(fā)流,作為提取流量特征的基本單位;
S33:對(duì)每一條突發(fā)流提取相應(yīng)的特征數(shù)據(jù),包括:最大包長(zhǎng)、最小包長(zhǎng)、包長(zhǎng)的平均值、中位數(shù)、絕對(duì)中位差、總體標(biāo)準(zhǔn)差、總體方差、偏度、峰度以及第10%到90%的數(shù)據(jù)包的長(zhǎng)度、最大的時(shí)間間隔、最小的時(shí)間間隔、時(shí)間間隔的平均值、中位數(shù)、絕對(duì)中位差、總體標(biāo)準(zhǔn)差、總體方差、偏度、峰度以及第10%到90%的數(shù)據(jù)包的時(shí)間間隔、每條突發(fā)流里包的總數(shù),共計(jì)37個(gè)特征值;
S34:將計(jì)算結(jié)果保存在本地,作為特征數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別方法,其特征在于:所述步驟S6具體包括:
S61:對(duì)特征樣本集按8:2劃分訓(xùn)練集和測(cè)試集;
S62:將訓(xùn)練集輸入到初始分類(lèi)器,利用隨機(jī)森林算法對(duì)其訓(xùn)練分類(lèi);
S63:將訓(xùn)練好的分類(lèi)模型,利用測(cè)試集評(píng)估分類(lèi)器的準(zhǔn)確率;
S64:將優(yōu)化后的分類(lèi)模型保存至APP流量特征庫(kù)。
6.基于機(jī)器學(xué)習(xí)的移動(dòng)應(yīng)用流量識(shí)別系統(tǒng),其特征在于:該系統(tǒng)包括流量監(jiān)聽(tīng)模塊、流量處理模塊、流量展示模塊、特征提取模塊、特征展示模塊、應(yīng)用識(shí)別模塊和結(jié)果展示模塊;
流量監(jiān)聽(tīng)模塊,部署流量監(jiān)聽(tīng)工具wireshark,對(duì)手機(jī)發(fā)出的應(yīng)用流量進(jìn)行捕獲,每捕獲1000個(gè)數(shù)據(jù)包自動(dòng)保存到本地;
流量處理模塊,對(duì)保存在本地的pcap形式的流量,過(guò)濾和刪除錯(cuò)誤、重傳的數(shù)據(jù)包,再利用tshark命令解析pcap文件,獲取每個(gè)數(shù)據(jù)包的源IP地址、目的IP地址、源端口、目的端口、數(shù)據(jù)包大小以及兩個(gè)數(shù)據(jù)包發(fā)送的間隔時(shí)間,并且重定向到CSV文件中;
流量展示模塊,將解析出來(lái)的每條數(shù)據(jù)包,按[源IP地址、目的IP地址、源端口、目的端口、數(shù)據(jù)包大小、兩個(gè)數(shù)據(jù)包發(fā)送的間隔時(shí)間]的格式,顯示在UI界面,供用戶(hù)直觀地了解和觀察捕獲到的數(shù)據(jù)包;
特征提取模塊,將經(jīng)過(guò)處理后的流量數(shù)據(jù),離散成突發(fā)形式的網(wǎng)絡(luò)流量塊,再根據(jù)四元組,即源IP地址、目的IP地址、源端口和目的端口,分離成突發(fā)流,提取每條突發(fā)流的37個(gè)特征數(shù)據(jù),保存為待檢測(cè)的特征樣本;
特征展示模塊,將提取到的每條突發(fā)流的37個(gè)特征數(shù)據(jù)值,顯示在UI界面,供用戶(hù)直觀地了解和觀察每條突發(fā)流的特征數(shù)據(jù);
應(yīng)用識(shí)別模塊,將待檢測(cè)的特征樣本放入APP流量特征庫(kù)中進(jìn)行匹配,匹配過(guò)程中,預(yù)測(cè)概率大于0.9的結(jié)果,被認(rèn)為與某類(lèi)別耦合度高,判定移動(dòng)流量來(lái)自此應(yīng)用;
結(jié)果展示模塊,將應(yīng)用識(shí)別結(jié)果顯示在UI界面。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210134214.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 移動(dòng)臺(tái),基站,移動(dòng)通信系統(tǒng),移動(dòng)通信與移動(dòng)通信程序
- 移動(dòng)通信系統(tǒng)、移動(dòng)終端以及移動(dòng)通信方法
- 移動(dòng)支付裝置、移動(dòng)終端POS以及移動(dòng)終端
- 移動(dòng)控制裝置、移動(dòng)體、移動(dòng)體系統(tǒng)、移動(dòng)控制方法及程序
- 移動(dòng)終端后蓋、移動(dòng)終端殼體及移動(dòng)終端
- 移動(dòng)平臺(tái)的輔助移動(dòng)方法、移動(dòng)裝置及移動(dòng)平臺(tái)
- 自移動(dòng)設(shè)備移動(dòng)方法及自移動(dòng)設(shè)備
- 移動(dòng)輪(支撐移動(dòng))
- 移動(dòng)房屋(移動(dòng)酒店)
- 移動(dòng)控制方法、移動(dòng)裝置及移動(dòng)平臺(tái)





