[發明專利]基于機器學習的移動應用流量識別方法及系統在審
| 申請號: | 202210134214.2 | 申請日: | 2022-02-14 |
| 公開(公告)號: | CN114500387A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 陳龍;湯婷婷;韓世凱 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | H04L47/125 | 分類號: | H04L47/125;H04L47/2441;H04L47/2483;H04L69/22;G06N3/00;G06N20/00 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 移動 應用 流量 識別 方法 系統 | ||
本發明涉及一種基于機器學習的移動應用流量識別方法及系統,屬于流量識別領域。所述方法包括:流量采集階段、流量處理階段、特征提取階段、流量標記階段、流量平衡階段、模型訓練階段;所述系統包括:流量監聽模塊、流量處理模塊、流量展示模塊、特征提取模塊、特征展示模塊、應用識別模塊、結果展示模塊。本發明提出了多特征融合的特征提取方案,提升了信息豐富度,優化了模型訓練效果,分類準確性得到提升;設計出SMOTE+ENN樣本平衡算法與隨機森林算法相結合的模型訓練方式,使得少數類樣本的誤分率降低,提高了分類器的分類識別能力。
技術領域
本發明屬于流量識別領域,涉及基于機器學習的移動應用流量識別方法。
背景技術
移動應用流量的特殊性給傳統的流量識別方法帶來了很大的挑戰。首先,移動通信幾乎都是通過HTTP/HTTPS傳輸的,這使得基于端口識別的傳統方法只能將移動流量識別為Web,無法識別出流量來自哪個具體的應用程序。其次,基于DPI(深度報文檢測技術)的傳統方法是通過識別數據包的有效負載來識別流量,如今,為了保護用戶的隱私,很多應用程序使用加密協議進行數據的傳輸,DPI技術就沒有辦法有效的滿足實際應用需求。基于以上原因,傳統的流量識別方法不適用于移動應用流量的識別處理。
基于機器學習的移動應用流量識別方法,不需要掌握各種協議數據流的包結構,它們通過學習不同應用數據包的某些統計特征,如報文的間隔時間,報文大小,流持續時間等形成分類器來識別移動應用流量。加密技術一般只對載荷信息進行加密而不是對流量特征進行處理,該方法受加密影響較小。
發明內容
有鑒于此,本發明的目的在于提供一種基于機器學習的移動應用流量識別方法。可以解決移動應用流量類別分布不平衡的問題,提高分類器的分類識別能力,有效保證移動應用流量識別的準確率;提出的輕量級移動應用流量識別系統,能夠將捕獲到的真實流量,無論這些流量是加密還是未加密的,分析處理,自動地提取相應的統計特征,與APP流量特征庫進行匹配,識別出流量來自哪個應用程序。
為達到上述目的,本發明提供如下技術方案:
基于機器學習的移動應用流量識別方法,該方法包括以下步驟:
S1:流量采集階段:采集相應的APP流量,制作訓練模型所需的流量數據集;
S2:流量處理階段:對采集到的數據包,進行流量數據的預處理;
S3:特征提取階段:提取流量數據的37個特征值,用于模型的訓練;
S4:流量標記階段:為每條特征流量標記真實的應用類別;
S5:流量平衡階段:處理類別分布不平衡的應用流量問題;
S6:模型訓練階段:將特征樣本分類訓練,構建APP流量特征庫。
可選的,所述S1具體包括:
S11:手機獲取并運行APK文件,同時連接PC端熱點;
S12:PC端開啟wireshark,采集來自手機的移動應用流量;
S13:采集目標應用時,在手機終端只運行此應用程序,并且關閉手機系統帶有的程序后臺運行功能,禁止后臺運行,以防止有其他應用以及安卓操作系統產生的后臺流量帶來干擾;
S14:每個應用采集的流量數據以后續生成的特征數據量為依據,采集目標為:采集到的流量經過流量處理和生成特征后,特征數據量能達到3000左右;
S15:采集的數據集中,記錄著每一個數據包詳細信息,包括:時間、數據包大小、源IP地址、目的IP地址、源端口、目的端口、協議和TCP/IP標志;
S16:在采集數據后,應用流量以pcap格式轉儲在本地。
可選的,所述步驟S2具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210134214.2/2.html,轉載請聲明來源鉆瓜專利網。





