[發明專利]一種基于指紋精簡的主機識別模型性能優化方法在審
| 申請號: | 201910364190.8 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110097122A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 楊武 | 申請(專利權)人: | 哈爾濱英賽克信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150000 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指紋 主機識別 向量化 量化 最小特征子集 性能優化 對向 向量 主機 預處理 準確度 機器學習 實驗驗證 特征選擇 提取特征 網絡流量 最小特征 準確率 排序 集合 驗證 | ||
1.一種基于指紋精簡的主機識別模型性能優化方法,其特征在于所述方法包括如下步驟:
步驟一、獲取網絡流量并進行預處理;
步驟二、從流量中提取出用于主機識別的特征信息;
步驟三、提取主機指紋;
步驟四、將主機指紋進行向量化處理,按照對應的向量化規則,轉化為可輸入到SVM中的向量格式,然后將轉化后的向量輸入到SVM;對于輸入的主機指紋向量,利用優化的CHI算法對輸入的向量進行特征選擇,根據優化CHI算法計算得到的值的大小對輸入的主機指紋向量中的特征信息進行排序;通過實驗依次按照排好序的順序加入特征信息進行驗證,每增加一個特征信息都使用SVM進行驗證其主機識別結果的準確率,找到準確率和完整指紋項的識別結果相差無幾并且向量個數最少的集合,作為最小特征子集;
步驟五、對最小特征子集按照向量化規則進行逆向量化,得到精簡后的指紋。
2.根據權利要求1所述的基于指紋精簡的主機識別模型性能優化方法,其特征在于所述預處理包括分離和篩選,其中:分離是將流量中帶有時間戳信息和不帶時間戳信息的分開處理,篩選是在使用零拷貝的基礎上通過多線程處理方式,獲取流量中屬于同一條流的數據包中的前幾個進行處理。
3.根據權利要求1所述的基于指紋精簡的主機識別模型性能優化方法,其特征在于所述特征信息包括主機時間戳信息、主機流量時變特性、硬件信息、軟件信息和網絡行為信息。
4.根據權利要求1所述的基于指紋精簡的主機識別模型性能優化方法,其特征在于所述提取主機指紋的方法為同時使用硬件主機指紋提取方法、軟件環境主機指紋提取方法和網絡行為主機指紋提取方法提取主機指紋。
5.根據權利要求1所述的基于指紋精簡的主機識別模型性能優化方法,其特征在于所述向量化處理的具體方法如下:
(a)當指紋中特征信息的取值是具體的數值A時,就用向量中的一個維度表示這個特征信息的值,這一維度的具體取值為A/max(A);
(b)當特征信息的取值只有出現或不出現兩種可能的標識位時,就用向量中的一個維度表示這個特征信息的值,用1表示出現,用0表示不出現;
(c)當特征信息的取值為N種屬性組合的字符串序列時,就用向量中的N個維度來記錄N個屬性的值,出現則記為1,不出現則記為0。
(d)當特征信息的取值不是具體數值而是[a,b]范圍內的任意值時,就用向量中的一個維度表示該指紋項的取值,并取值為區間內的值;
(e)當指紋項取值類型不固定時,假設既可能是(c)中出現的N種屬性組合的字符串序列,也可能是(a)中出現的具體數值時A,以輸入向量中的N+1維來記錄該指紋項的值,當指紋項取值為數值時,則N+1維的最后一維取值為A/max(A);當指紋項的取值為N種屬性組合的字符串序列時,則出現位記為1,不出現位記為0,并且最后一維取值為0;
(f)如果指紋項沒有取值時,將0置入所有輸入向量的維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱英賽克信息技術有限公司,未經哈爾濱英賽克信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910364190.8/1.html,轉載請聲明來源鉆瓜專利網。





