[發(fā)明專利]基于流式處理的TCP會(huì)話重組與統(tǒng)計(jì)數(shù)據(jù)提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810079562.8 | 申請(qǐng)日: | 2018-01-26 |
| 公開(kāi)(公告)號(hào): | CN108289125B | 公開(kāi)(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計(jì))人: | 高英;李若鵬;靳亞洽;劉煜 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;H04L29/06 |
| 代理公司: | 重慶中之信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 50213 | 代理人: | 涂強(qiáng) |
| 地址: | 510630*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 處理 tcp 會(huì)話 重組 統(tǒng)計(jì)數(shù)據(jù) 提取 方法 | ||
1.一種基于流式處理的TCP會(huì)話重組與統(tǒng)計(jì)數(shù)據(jù)的提取方法,其特征在于,包括以下步驟:
(1)在數(shù)據(jù)收集層與數(shù)據(jù)存儲(chǔ)層之間構(gòu)建數(shù)據(jù)管道層及實(shí)時(shí)計(jì)算層,數(shù)據(jù)收集層收集網(wǎng)絡(luò)數(shù)據(jù)包數(shù)據(jù)發(fā)送給數(shù)據(jù)管道層進(jìn)行緩存,實(shí)時(shí)計(jì)算層用于從數(shù)據(jù)管道層中遠(yuǎn)取數(shù)據(jù)進(jìn)行處理,處理結(jié)果存入數(shù)據(jù)存儲(chǔ)層;
(2)、在數(shù)據(jù)管道層中搭建三臺(tái)Kafka分布式消息隊(duì)列作為數(shù)據(jù)管道服務(wù);
(3)、在實(shí)時(shí)計(jì)算層中搭建三臺(tái)Flink流式處理引擎作為流式計(jì)算集群;
(4)、實(shí)時(shí)計(jì)算層從數(shù)據(jù)管道中提取數(shù)據(jù),進(jìn)行反序列化成數(shù)據(jù)對(duì)象;該對(duì)象將作為流式計(jì)算過(guò)程中的數(shù)據(jù)元素,經(jīng)過(guò)數(shù)據(jù)運(yùn)算輸出TCP會(huì)話數(shù)據(jù)與統(tǒng)計(jì)數(shù)據(jù);
數(shù)據(jù)管道層中通過(guò)定義數(shù)據(jù)組裝schema模式,將30特征序列化成二進(jìn)制格式bytes,進(jìn)行發(fā)送;對(duì)于所收集到的網(wǎng)絡(luò)原始數(shù)據(jù)包,抽取數(shù)據(jù)頭部29個(gè)特征以schema模式進(jìn)行序列化,該模式以json格式的方式定義,并在本地存儲(chǔ)為avsc格式,通go-avro作為序列化工具,通過(guò)將go語(yǔ)言原生的map[string]interface{}結(jié)構(gòu)轉(zhuǎn)化成avro所定義的record數(shù)據(jù)對(duì)象,序列化成二進(jìn)制格式;
實(shí)時(shí)計(jì)算層使用Avro-tool工具按照定義好的schema文件avsc生成反序列化類TCP,該類主要用對(duì)數(shù)據(jù)管道中的序列化二進(jìn)制數(shù)據(jù)進(jìn)行反序列化操作,使用Flink-Kafka-Connector工具,從Kafka集群中讀取出序列化二進(jìn)制數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行反序列化操作,得到TCP數(shù)據(jù)對(duì)象。
2.如權(quán)利要求1所述的基于流式處理的TCP會(huì)話重組與統(tǒng)計(jì)數(shù)據(jù)的提取方法,其特征在于,序列化后的數(shù)據(jù)將發(fā)送到由Kafka分布式消息隊(duì)列構(gòu)成的消息管道中進(jìn)行緩存。
3.如權(quán)利要求2所述的基于流式處理的TCP會(huì)話重組與統(tǒng)計(jì)數(shù)據(jù)的提取方法,其特征在于,
將TCP數(shù)據(jù)對(duì)象中的源IP、目的IP、源端口、目的端口定義成會(huì)話數(shù)據(jù)四元組,源IP+源端口與目的IP+目的端口位置調(diào)換的數(shù)據(jù)對(duì)象被認(rèn)為屬于同一次會(huì)話,將源IP與源端口以冒號(hào)連接組成字符串strl,將目的IP與目的端口以冒號(hào)連接組成字符串str2,并對(duì)strl與str2按照ASCII編碼進(jìn)行排序,將較小的字符串放置在前,由此可得對(duì)于每一個(gè)會(huì)話唯一key值,該key值將作為一次會(huì)話的區(qū)分標(biāo)準(zhǔn),同時(shí)也作為流分區(qū)的依據(jù);
Flink同時(shí)運(yùn)行多個(gè)并行流,每一個(gè)并行流都是一個(gè)分區(qū),每一個(gè)并行流將用來(lái)存放一組會(huì)話,通過(guò)提取數(shù)據(jù)對(duì)象的四元組信息,獲取唯一key值,該值用于流分區(qū),分區(qū)后數(shù)據(jù)流將劃分為一組一組的會(huì)話流;
對(duì)數(shù)據(jù)流依據(jù)活動(dòng)會(huì)話進(jìn)行窗口分配,會(huì)話窗口之間互不重疊也不具有一個(gè)明確的開(kāi)始和結(jié)束,會(huì)話窗口會(huì)在設(shè)定的時(shí)間內(nèi)沒(méi)有收到任何數(shù)據(jù)的條件下關(guān)閉,當(dāng)經(jīng)過(guò)一段時(shí)間并沒(méi)有數(shù)據(jù)到達(dá),引發(fā)會(huì)話窗口結(jié)束后,新的數(shù)據(jù)的到達(dá)將會(huì)引發(fā)建立新的會(huì)話窗口;
會(huì)話窗口采用Flink的會(huì)話窗口機(jī)制,根據(jù)TCP會(huì)話建立最長(zhǎng)等待時(shí)間,建立相應(yīng)最長(zhǎng)等待時(shí)間長(zhǎng)度的會(huì)話窗口,當(dāng)任意一條并行流上的第一個(gè)數(shù)據(jù)到達(dá),建立一個(gè)新的會(huì)話窗口,在會(huì)話窗口上隨著數(shù)據(jù)的不斷到達(dá)進(jìn)行增量計(jì)算,并且在時(shí)間閾值到達(dá)前未收到任何數(shù)據(jù)的情況下結(jié)束該會(huì)話窗口,并輸出計(jì)算結(jié)果,對(duì)于每一條并行流,都會(huì)隨著時(shí)間推移不斷會(huì)有新的會(huì)話窗口的新建與關(guān)閉,會(huì)話的結(jié)束依據(jù)數(shù)據(jù)間隔時(shí)間來(lái)判定,使用TCP會(huì)話建立最長(zhǎng)等待時(shí)間127秒來(lái)進(jìn)行判定;
通過(guò)會(huì)話窗口觸發(fā)器用于判斷一個(gè)會(huì)話的開(kāi)始、一個(gè)會(huì)話的結(jié)束以及調(diào)用;
采用窗口計(jì)算方法從會(huì)話的開(kāi)始到會(huì)話的結(jié)束進(jìn)行累計(jì)計(jì)算,計(jì)算出會(huì)話數(shù)據(jù)結(jié)果,根據(jù)其計(jì)算結(jié)果作為窗口計(jì)算的輸出聚合到一條數(shù)據(jù)流中,由該數(shù)據(jù)流進(jìn)行進(jìn)一步的統(tǒng)計(jì)計(jì)算并得出最終的結(jié)果,算出的會(huì)話數(shù)據(jù);采用Flink的滑動(dòng)窗口機(jī)制獲取會(huì)話數(shù)據(jù)的統(tǒng)計(jì),所得的會(huì)話統(tǒng)計(jì)數(shù)據(jù)和前計(jì)算的出的會(huì)話數(shù)據(jù)組合,所得的會(huì)話數(shù)據(jù)組合用于網(wǎng)絡(luò)異常行為分析平臺(tái)后續(xù)的分析數(shù)據(jù)集。
4.如權(quán)利要求3所述的基于流式處理的TCP會(huì)話重組與統(tǒng)計(jì)數(shù)據(jù)的提取方法,其特征在于,會(huì)話數(shù)據(jù)包括會(huì)話起始時(shí)間、會(huì)話應(yīng)用協(xié)議類型、會(huì)話起始節(jié)點(diǎn)信息、會(huì)話數(shù)據(jù)總量數(shù)據(jù)統(tǒng)計(jì)、會(huì)話時(shí)間統(tǒng)計(jì)數(shù)據(jù)、會(huì)話數(shù)據(jù)時(shí)間統(tǒng)計(jì)信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810079562.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 具有傳輸控制協(xié)議匯聚模塊的傳輸控制協(xié)議主機(jī)
- 一種分發(fā)傳輸TCP數(shù)據(jù)包的方法及裝置
- 一種TCP報(bào)文的發(fā)送方法、接收方法及裝置
- 一種無(wú)縫重建TCP連接的系統(tǒng)及方法
- 一種機(jī)載網(wǎng)絡(luò)服務(wù)的TCP連接處理方法
- 一種實(shí)現(xiàn)傳輸控制協(xié)議TCP傳輸?shù)姆椒把b置
- 移動(dòng)終端跨區(qū)保持MEC邊緣TCP業(yè)務(wù)服務(wù)方法及系統(tǒng)
- 一種TCP熱備份的方法和裝置
- TCP報(bào)文的負(fù)載均衡方法及裝置
- 加密TCP流量采集方法與裝置
- 一種會(huì)話轉(zhuǎn)換的方法及裝置
- 一種人工智能應(yīng)答系統(tǒng)的測(cè)試方法及系統(tǒng)
- 一種會(huì)話處理的方法及服務(wù)器
- 會(huì)話請(qǐng)求發(fā)送方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 提供自適應(yīng)會(huì)話系統(tǒng)的計(jì)算機(jī)實(shí)現(xiàn)方法和自適應(yīng)會(huì)話系統(tǒng)
- 一種網(wǎng)絡(luò)通信會(huì)話聚合的方法
- 會(huì)話處理方法、裝置、電子設(shè)備
- 用于會(huì)話重建或共享的方法、裝置及系統(tǒng)
- 用于輔助實(shí)現(xiàn)會(huì)話的方法、裝置、介質(zhì)以及電子設(shè)備
- 會(huì)話展示方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





