[發明專利]一種基于文本分析的未知漏洞風險評估方法在審
| 申請號: | 202010925712.X | 申請日: | 2020-09-07 |
| 公開(公告)號: | CN112035846A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 孟軍 | 申請(專利權)人: | 江蘇開博科技有限公司 |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇創專利代理事務所(普通合伙) 32273 | 代理人: | 張艷 |
| 地址: | 210000 江蘇省南京市玄*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 分析 未知 漏洞 風險 評估 方法 | ||
1.一種基于文本分析的未知漏洞風險評估方法,其特征在于:包括以下步驟:
步驟1:以美國國家漏洞數據庫National Vulnerability Database,NVD作為樣本數據源,獲取已有的漏洞文本描述;
步驟2:對樣本漏洞文本描述進行文本分析,提取向量矩陣,具體為,
2.1,利用自然語言處理工具jieba對文本進行分詞;
2.2,去除標點符號及停用詞;
2.3,采用自然語言處理工具提取詞干部分,去除無效的部分;
2.4,采用詞頻-逆向文件頻率TF-IDF方法建立關鍵詞向量矩陣,具體為,
2.4.1,計算詞頻TF:
其中表示分詞i在文本中出現的次數,分母則是文本中所有分詞出現的次數總和,即
2.4.2,計算逆向文件頻率IDF:
其中,是語料庫中的文本總數,表示包含詞語的文本數目,即的文件數目,即
2.4.3,計算TF-IDF:
2.4.4,將漏洞文本j的所有分詞按照TF-IDF值降序排列,提取排序靠前的分詞作為漏洞文本j的類別關鍵詞,其對應的TF-IDF值構建詞向量矩陣;
步驟3:利用提取的向量矩陣及對應的CVSS評分,建立分類模型;
步驟4:對任意一個未經評分的漏洞進行風險評估時,先進行步驟2,得到對應向量矩陣,然后將對應的向量矩陣輸入到步驟3得到的分類模型中,得到漏洞風險等級。
2.根據權利要求1所述的基于文本分析的未知漏洞風險評估方法,其特征在于:所述步驟3具體為:
3.1:構建Text-CNN模型,使用步驟2.4中建立的詞向量矩陣作為輸入;
3.2:根據國際標準,將CVSS評分劃分為低危漏洞、中危漏洞、高危漏洞,標記對應的漏洞樣本文本描述的危險等級,得到已標注樣本集;
3.3:利用Text-CNN模型對已標記樣本集中的標記數據樣本進行訓練與學習,得到最終的分類模型,用以實現對未知漏洞風險的自動評估。
3.根據權利要求2所述的基于文本分析的未知漏洞風險評估方法,其特征在于:所述步驟3.1中的Text-CNN模型,包括輸入層,卷積層,池化層和全連接層,具體為:
3.1.1,輸入層:Text-CNN的輸入層是一個數字矩陣,即每個樣本是一個矩陣,每行對應樣本的一個分詞,即詞匯,每列表示一種不同的上下文或不同的漏洞文本,矩陣中的每個元素對應相關詞和上下文的共現信息,通過神經網絡的訓練迭代更新分析樣本數據集的長度來指定一個固定長度序列N,比N的短的樣本序列需要以“0”填充,長度比N長的序列則需要截取至與N長度相同,通常是將多出的部分后面截掉,保留前面與序列N長度相同的部分,最終輸入層輸入的是文本序列中各詞匯對應的分布式表示,得到一個的權重矩陣,其中n為此文本輸入序列最大長度,K為詞向量的維度;
3.1.2,卷積層:卷積層設計成三個不同大小的卷積核,卷積后生成特征圖feature-map,然后進行邊界填充padding,填充方式可采用same填充或valid填充形式;
3.1.3,池化層:在卷積層過程中由于使用了不同高度的卷積核,使得通過卷積層后得到的向量維度會不一致,所以在池化層中使用最大池化層方法對每個特征向量池化成一個值,即抽取每個特征向量的最大值表示該特征,將這個最大值作為最重要的特征,對所有特征向量進行1-Max-Pooling之后,還需要將每個值拼接起來,得到池化層最終的特征,將步驟3.1.2中得到的結果,進行池化層,來縮小特征圖,即從卷積層的feature-map中提取最大的值,并合并維度,最終提取出來,稱為一個一維向量;
3.1.4,全連接層:用于對步驟3.1.1、3.1.2和3.1.3的特征做加權和,池化之后的一維向量通過全連接的方式接入一個softmax層進行分類,softmax公式為,其中,表示輸出層中第i個輸出信號,表示輸出層中第j個輸入信號, 表示輸出層共有個輸入信號,表示計算所有輸出層中的輸入信號的指數和,
在全連接層進行部分dropout,即在訓練過程中,對于神經網絡單元,按照一定的概率將其暫時從網絡中丟棄,此處設置dropout=0.5,減少過擬合,最終輸出的結果即是需要的準確分類,及對應的漏洞風險等級。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇開博科技有限公司,未經江蘇開博科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010925712.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鹽酸戊乙奎醚雜質及其制備方法
- 下一篇:一種多功能心內科監測用的護理設備





