[發明專利]一種網絡流特征的提取與存儲方法有效
| 申請號: | 201810079545.4 | 申請日: | 2018-01-26 |
| 公開(公告)號: | CN108287905B | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 高英;李若鵬;靳亞洽;劉煜 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;H04L29/06 |
| 代理公司: | 重慶中之信知識產權代理事務所(普通合伙) 50213 | 代理人: | 蒲艷紫 |
| 地址: | 510630*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 特征 提取 存儲 方法 | ||
一種網絡流特征的提取與存儲方法,包括以下步驟:S1:使用gopacket數據包工具驅動libpcap函數包,捕捉原始的網絡數據包,按網絡的不同的層次的特性提取網絡數據包,得到特征原文數據,并且進行落盤處理,生成本地網絡數據包文件并存儲;S2:使用avro二進制序列化的方式將特征原文數據序列化成特征二進制數據;S3:將特征二進制數據寫入到分布式消息隊列構成的數據管道中,進行數據的緩存存儲,形成緩存數據;S4:將緩存數據進行反序列化處理得到特征數據,獲取到所述特征原文數據,運用窗口運算獲取所述特征原文數據的統計特征數據;S5:將所述特征原文數據和統計特征數據用列式稀疏存儲的方式存儲在分布式數據庫Hbase中。
技術領域
本發明涉及計算機通信技術領域,具體涉及一種網絡流特征的提取與存儲方法。
背景技術
目前許多的網絡特征提取工具往往依賴于開源軟件如:snort、SNMP、netflow等,物理硬件資源利用率得不到很好的提升,磁盤的IO瓶頸得不到解決,網絡資源大量浪費,以及數據的可靠、冗余等機制的缺失,阻礙系統整體的性能、可靠性,最終導致大量的物理、人力資源的浪費。并且snort等的工具的不可控性會帶來很多安全性問題以及更多的人力成本,同時,面對海量網絡數據流的情況下,傳統的網絡流特征提取工具的性能不足以承擔高速網絡的網絡流特征提取與存儲工作。本發明所使用的特征提取技術能夠在大流量的情況下保障整個系統的高效性、穩定性,節省物理、人力成本。
在實際生產環境中,特征數據流的傳輸,往往采用原文的方式在數據管道中流轉,處理靈活性低,造成了網絡資源的浪費,容易達到網絡瓶頸,進而從而引發整個系統的停滯。
發明內容
針對現有技術中所存在的不足,本發明提供了一種網絡流特征的提取與存儲方法,解決在有限的網絡條件下保障網絡流特征提取的魯棒性、高效性,保證存儲的可用性、可靠性的問題。為實現上述目的,本發明采用了如下的技術方案:一種網絡流特征的提取與存儲方法,包括以下步驟:
S1:使用gopacket數據包工具驅動libpcap函數包,按網絡的不同的層次的特性對網絡數據進行網絡數據包提取,得到特征原文數據,并且進行落盤處理,生成本地數據包文件并存儲;
S2:使用avro二進制序列化的方式將特征原文數據序列化成特征二進制數據;
S3:將特征二進制數據寫入到分布式消息隊列構成的數據管道中,進行數據的緩存存儲;
S4:提取緩存數據進行反序列化處理得到特征數據,運用基于Flink流式處理引擎的窗口運算獲取所述特征數據的統計特征數據;
S5:將所述特征數據和統計特征數據拼接成網絡流特征,用列式稀疏存儲的方式將網絡流特征存儲在分布式數據庫Hbase中。
進一步的,運用基于Flink流式處理引擎的窗口運算獲取所述特征數據的統計特征數據,得到數量統計特征數據和時間統計特征數據,具體實現步驟為:
S4-1:建立時間窗口并設定時間閾值;
S4-2:對進入時間窗口的特征數據中的每一條數據時數據進行信息計算;
S4-3:到達時間窗口的時間閾值時,調用窗口計算,得出時間統計特征數據;
S4-4:建立數量窗口并設定數量時間閾值;
S4-5:對進入窗口的特征數據中的每一條數據時數據進行信息計算;
S4-6:到達時間數量時間閾值時,調用窗口計算,得出數量統計特征數據。
進一步的,特征原文數據的類型包括特征包括Ethernet、IP、ICMP、TCP和UDP五種協議的報文頭部數值特征。
進一步的,步驟S1中特征原文數據提取的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810079545.4/2.html,轉載請聲明來源鉆瓜專利網。





