[發明專利]基于非完全信息的入侵檢測系統最優穩態策略求解方法有效
| 申請號: | 202011387702.1 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112487431B | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 馮宇;壽宇航;石月樓 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F21/57;G06F17/18;G06F17/15 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 完全 信息 入侵 檢測 系統 最優 穩態 策略 求解 方法 | ||
1.一種基于非完全信息的入侵檢測系統最優穩態策略求解方法,其特征在于,所述方法包括以下步驟:
1)攻擊者針對網絡系統狀態信息的缺失,建立基于信念的連續零和隨機博弈模型,給出攻擊者的最優穩態策略;
2)入侵檢測系統作為信息優勢方,建立具有連續性和離散性的混合狀態的Markov決策過程,給出入侵檢測系統的最優穩態策略;
3)使用一種基于深度強化學習的算法,求解出攻擊者和入侵檢測系統的最優穩態策略;
所述步驟1)中,建立基于信念的連續零和隨機博弈模型,攻擊者的純動作集合為αa=i代表攻擊者使用中相應的某一攻擊類型i,其相應給定的攻擊代價為ca(i)>0,入侵檢測系統的有限檢測庫集合為其中,每個庫li會以概率檢測到攻擊類型αa,加載一個庫li也有其相應給定的代價入侵檢測系統通過加載不同的庫來檢測不同的攻擊類型,定義Fi,i∈{1,2,...,2N}表示入侵檢測系統對于庫的不同配置;入侵檢測系統的純動作集合為純動作表示選擇具體的某一配置,因此執行純動作αd的代價為若入侵檢測系統執行純動作αd,則識別到攻擊類型αa的概率為定義集合表示網絡系統3種狀態的集合,其中S1,S2,S3分別代表網絡系統的健康,受損,故障3種狀態,在狀態Sk下,若攻擊類型αa未被入侵檢測系統檢測到,則會對網絡系統造成的損害表示為D(Sk,αa),定義在狀態Sk下,入侵檢測系統選擇純動作αd,攻擊者選擇攻擊類型αa,攻擊者的收益,也即入侵檢測系統的損失為
網絡系統的不同狀態之間會以設定的概率進行相互轉移,定義網絡系統的狀態轉移矩陣為
其中,表示在純動作{αd,αa}下,網絡系統從狀態Si轉移到狀態Sj的轉移概率;
給出攻擊者的最優穩態策略,基于信念的連續零和隨機博弈模型使用五元組描述,模型設定如下:
1.1)是博弈的參與者集合,代表加權入侵檢測系統,a代表攻擊者;
1.2)是對聯合概率分布的集合,Δ表示對于一個集合的概率測度空間,×表示笛卡爾積,表示加權入侵檢測系統的純動作集合,分別表示加權入侵檢測系統和攻擊者的概率動作集合,是聯合概率動作,為加權入侵檢測系統的概率動作,為攻擊者的概率動作;
1.3)是信念狀態集合,是對于集合的聯合概率分布,t時刻攻擊者的信念為Bt,通過式(3)更新出在t+1時刻的信念Bt+1,分別表示在t時刻,攻擊者觀測到的純動作;
其中由式(2)得到;
1.4)T是信念狀態的轉移概率:
T(b′|b,a)表示當前時刻,信念狀態為b∈B,攻守雙方的聯合概率動作為a∈A的條件下,下一時刻轉移到信念狀態b′∈B的概率,表示加權入侵檢測系統執行純動作的概率,aa(αa)攻擊者執行純動作αa的概率;
1.5)是一步回報集合,其中,ri(Bt=b,At=a)是參與者i在t時刻狀態Bt=b下采取聯合概率動作At=a的一步回報,給出攻擊者和加權入侵檢測系統的一步回報分別為
其中,b(j)表示系統狀態j的概率;
1.6)定義加權入侵檢測系統和攻擊者的目標函數:
其中,b0為初始信念,0<ρ<1是折扣因子,π(b)是根據當前信念狀態b,加權入侵檢測系統和攻擊者的穩態策略,每個參與者的目標都是最大化自己的目標函數,最優穩態策略求解問題也就是找到穩態鞍點均衡,即最優穩態策略滿足式(8),即為攻擊者的最優穩態策略;
其中,J=Ja=-Jd;
1.7)給出攻擊者的最優狀態值函數為
給出攻擊者的最優狀態-動作值函數為
其中,表示對所有和αa組合的累加,轉移概率表示當前時刻信念狀態為b,聯合概率動作為a,加權入侵檢測系統和攻擊者的純動作分別為αa的條件下,下一時刻信念狀態轉移到b′的概率;
所述步驟2)中,入侵檢測系統建立具有連續性和離散性的混合狀態的Markov決策過程,給出入侵檢測系統的最優穩態策略,該決策過程用一個四元組描述,包括以下步驟:
2.1)是聯合概率動作集合,表示入侵檢測系統的概率動作集合;
2.2)是混合狀態集合;
2.3)是混合狀態的轉移概率:
表示在當前時刻,混合狀態為u,u={s,b}∈U,b∈B,攻守雙方的聯合概率動作為的條件下,下一時刻轉移到混合狀態u′的概率,u′={s′,b′}∈U,b′∈B,是定義在公式(2)狀態轉移矩陣中(s,s′)對應的元素,ad(αd)表示入侵檢測系統執行純動作αd的概率;
2.4)入侵檢測系統的一步回報為:
2.5)定義入侵檢測系統的目標函數:
其中,u0為初始混合狀態,0<ρ<1是折扣因子,ζd(u)是根據當前混合狀態u,入侵檢測系統的穩態策略,入侵檢測系統的目標是最大化自己的目標函數,入侵檢測系統的最優穩態策略由公式(13)得到,記為
2.6)給出入侵檢測系統的最優狀態值函數為
給出入侵檢測系統的最優狀態-動作值函數為
其中α={αd,αa},表示對所有αd和αa組合的累加,為根據式(8)得到的策略做出的最優概率動作,轉移概率表示當前時刻信念狀態為b,聯合概率動作為入侵檢測系統和攻擊者的純動作分別為αd,αa的條件下,下一時刻信念狀態轉移到b′的概率;
所述步驟3)中,使用一種基于深度強化學習的算法,找到攻擊者和入侵檢測系統的最優穩態策略,包括以下步驟:
3.1)只要得到入侵檢測系統和攻擊者的最優狀態-動作值函數,就可以得到雙方在不同狀態下的最優穩態策略,考慮到信念狀態的連續性,使用如下深度Q學習算法來求解最優狀態-動作值函數,過程為:
3.1.1.初始化容量分別為Ca,Cd的記憶庫Ma,Md;
3.1.2.分別隨機初始化Q網絡和Qd(b,α;σd)的權重σa,σd;
3.1.3.分別初始化目標網絡的權重,
3.1.4.設置初始狀態為b1∈B,u1={s1,b1};
3.1.5.對于t=1,2,...執行以下循環:
3.1.6.對于t時刻的信念狀態bt,找到當前時刻攻擊者和加權入侵檢測系統的策略;
3.1.7.對于t時刻的混合狀態ut和攻擊者的策略,找到當前時刻入侵檢測系統的策略;
3.1.8.根據ε-greedy政策選擇純動作
3.1.9.觀測到系統狀態st+1,計算t時刻的記為
3.1.10.根據公式(3)算出t+1時刻的信念狀態bt+1,設置混合狀態ut+1={st+1,bt+1};
3.1.11.把當前的經歷分別存儲在記憶庫Ma,Md中;
3.1.12.隨機分別從記憶庫Ma,Md抽取若干條記憶
3.1.13.令
3.1.14.對于[zd,l-Qd(ul,αl;σd)]2執行梯度下降法訓練Q網絡的權重σa,σd;
3.1.15.每過D步以后,把Q網絡的權重賦給目標網絡
3.1.16.循環結束;
所述3.1.8中,分別為攻擊者在t時刻觀測到的純動作,αd,t為入侵檢測系統在t時刻實際執行的純動作;3.1.12到3.1.14中,下標j,l表示隨機抽取到的某一時刻j,l;3.1.13中,表示j+1時刻所有純動作和α′a組合的累加,表示l+1時刻所有純動作α′d和α′a組合的累加;3.1.14中,權重σa,σd的更新公式為:
其中0<γ≤1是步長因子,下標k表示抽取的若干記憶執行梯度下降法時的迭代次數,和分別表示Qd(u,α;σd,k)的梯度;
3.2)當訓練好神經網絡后,使用Q網絡和Qd(b,α;σd)分別估計出最優狀態-動作值函數針對不同的信念狀態b,使用線性規劃即能夠得到攻擊者的最優穩態策略然后入侵檢測系統通過求解最優化問題的公式(13)得到最優穩態策略
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387702.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型點閥裝置點燙壓送結構
- 下一篇:醫療SPD供應鏈管理系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





