[發(fā)明專利]基于強化學(xué)習(xí)的大流檢測方法有效
| 申請?zhí)枺?/td> | 201810594740.0 | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN109039797B | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計)人: | 王雄;潘志豪;任婧;徐世中;王晟 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L12/24;G06N3/08 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 李朝虎 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強化 學(xué)習(xí) 檢測 方法 | ||
本發(fā)明公開了基于強化學(xué)習(xí)的大流檢測方法,包括以下步驟:S1:對數(shù)據(jù)流進行檢測得到流檢測數(shù)據(jù);S2:采用歷史樣本緩沖池對檢測數(shù)據(jù)模型進行優(yōu)化;S3:采用優(yōu)化后的檢測數(shù)據(jù)模型對流檢測數(shù)據(jù)進行大流判斷,并對大流進行再次檢測;S4:將流檢測數(shù)據(jù)放入歷史樣本緩沖池,并再次依次執(zhí)行S2、S3和S4直至檢測結(jié)束。本發(fā)明將網(wǎng)絡(luò)的鏈路狀態(tài)和流的歷史測量信息作為狀態(tài),將流的測量大小作為獎勵值,采用基于強化學(xué)習(xí)的大流檢測方法對網(wǎng)絡(luò)中的大流進行檢測,能充分提取流的相關(guān)性等特征,能提高大流檢測的準確度。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體涉及基于強化學(xué)習(xí)的大流檢測方法。
背景技術(shù)
數(shù)據(jù)中心的規(guī)劃、運營管理、計費和安全審計都需要細粒度的網(wǎng)絡(luò)流量測量。NetFlow和sFlow都是基于流的測量方式,他們能提供細粒度的網(wǎng)絡(luò)流量測量,但是他們需要特定網(wǎng)絡(luò)設(shè)備或特定的功能支持,比如NetFlow只能在思科的設(shè)備上使用。另外一方面,由于實際網(wǎng)絡(luò)中待測量的流量信息數(shù)據(jù)巨大,基于流的測量方法通常需要耗費大量網(wǎng)絡(luò)資源(網(wǎng)絡(luò)帶寬、節(jié)點存儲和計算等),其可擴展性很差。對Netflow來說,網(wǎng)絡(luò)資源的限制每個包的處理時間,當高速交換機中,每個數(shù)據(jù)包的處理時間有限。而在SDN(軟件定義網(wǎng)絡(luò))中,交換機受限的資源是三態(tài)內(nèi)容尋址存TCAM資源,每一條TCAM資源只能測量一條流。由于資源的不足,NetFlow會采用一種采樣的方式進行測量,這會降低測量的準確性。FlowRadar提供了一種在交換機資源限制條件下,實時細粒度地測量每一條流的方法,它通過將每條流的計數(shù)器進行壓縮進而減少包的處理時間和網(wǎng)絡(luò)負載的占用,它的缺點就是需要對交換機進行更改,無法在現(xiàn)有的網(wǎng)絡(luò)中進行部署,同時也會增加網(wǎng)絡(luò)部署代價。
iSTAMP提出一種流量聚合和解耦的方法,通過流量聚合減少TCAM資源的使用,通過流量解耦為流量較大的流提供細粒度的測量。由于流量的大小是變化的,因此被解耦的流也是需要經(jīng)常變化的,這需要算法能實時地找出當前網(wǎng)絡(luò)中流量較大的流,并進行測量。
上述問題本質(zhì)上一個多臂賭博機MAB(multi-armed bandit)的問題,在這個問題模型中,有許多外表一摸一樣的老虎機,每個老虎中獎的概率不同,并且會隨著時間的變化而變化。一個賭徒每次搖老虎機都會花費一定的成本,如何最大化收益就是多臂賭博機要求解的問題。當賭徒找到一個中獎概率較高的老虎機時,它可以選擇繼續(xù)搖該老虎機,以獲得穩(wěn)定的收益。但是有可能會存在中獎率更高的老虎機,或者該老虎機的中獎概率會隨著時間下降,因此另外一個比較長遠的打算是——損失一部分當前獎勵,探索其他的老虎機。在貪心的選擇當前最優(yōu)和探索其他可能性之間如何平衡是多臂老虎機要解決的主要問題。
解決MAB的算法目前已經(jīng)有許多,其中較為直接的就是貪心策略,按照一定的概率,比如0.95的概率進行貪心選擇當前最優(yōu),留下0.05的概率機會去探索其他更優(yōu)的解。貪心策略的明顯缺點就是沒有充分利用上下文的信息,比如有可能多個老虎機之前存在相關(guān)性。根據(jù)這個思想,基于上下文的多臂賭博機算法應(yīng)運而生?;谏舷挛牡亩啾圪€博機算法會記錄一個d維的特征數(shù)組,每次迭代做出選擇時,都會更新維特征數(shù)組,這個d維特征數(shù)組記錄的就是上下文相關(guān)的數(shù)據(jù)。算法的目的是收集足夠多的信息,以便于發(fā)現(xiàn)上下文和獎勵之間的相關(guān)性,這樣每次可以做出最優(yōu)選擇,進而獲得最大的收益。常見的基于上下文的多臂賭博機算法有上置信界算法UCB(Upper Confidence Bound)、神經(jīng)網(wǎng)絡(luò)和隨機森林。
iSTAMP使用MUCB(modifiedUpper Confidence Bound)來檢測大流,但是其沒有利用流的相關(guān)性,準確度較低。
目前對于網(wǎng)絡(luò)流量測量的多種算法均存在檢測測量準確度較低的問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是目前對于網(wǎng)絡(luò)流量測量的多種算法均存在檢測測量準確度較低的問題,目的在于提供基于強化學(xué)習(xí)的大流檢測方法,解決上述問題。
本發(fā)明通過下述技術(shù)方案實現(xiàn):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810594740.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種通信設(shè)備測試裝置
- 下一篇:分裂檢測系統(tǒng)及方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





