[發明專利]基于航天軟件缺陷數據集類不平衡的對抗驗證方法及裝置在審
| 申請號: | 202011314574.8 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112380132A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 江云松;馮濤;李鵬宇;高猛;滕俊元 | 申請(專利權)人: | 北京軒宇信息技術有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62;G06N20/20 |
| 代理公司: | 中國航天科技專利中心 11009 | 代理人: | 陳鵬 |
| 地址: | 100190 北京市海淀區科學院*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 航天 軟件 缺陷 數據 不平衡 對抗 驗證 方法 裝置 | ||
1.一種基于航天軟件缺陷數據集類不平衡的對抗驗證方法,其特征在于,包括:
獲取航天嵌入式軟件對應的缺陷數據訓練集和缺陷數據測試集;
合并所述缺陷數據訓練集和所述缺陷數據測試集,生成合并數據集;
基于集成學習方法對所述合并數據集中的缺陷數據樣本進行預測,確定所述缺陷數據樣本對應的預測概率;
根據所述預測概率,對所述合并數據集中的缺陷數據樣本進行升序排序,并從所述缺陷數據樣本中篩選出設定比例的缺陷數據樣本,得到所述航天嵌入式軟件對應的驗證數據樣本。
2.根據權利要求1所述的方法,其特征在于,在所需訓練的模型為樹模型時,所述缺陷數據訓練集和所述缺陷數據測試集的度量元包括詞匯數、詞匯頻率、語句平均復雜度、交點復雜度、非循環路徑數目、可執行語句行數、代碼行、非注釋非空行、LCSAJ數目、最大LCSAJ密度、廣度優先調用層次、深度優先調用層次、非重復操作符個數、基本圈復雜度和McCabe復雜度;
在所需訓練的模型為神經網絡模型時,所述缺陷數據訓練集和所述缺陷數據測試集的度量元包括代碼行數、空白行數、可執行行數、注釋行數、路徑數、基本圈復雜度和最大嵌套深度;
所述缺陷數據訓練集和所述缺陷數據測試集類不平衡軟件缺陷率的范圍為[0.41%,9.50%]。
3.根據權利要求1所述的方法,其特征在于,所述基于集成學習方法對所述合并數據集中的缺陷數據樣本進行預測,確定所述缺陷數據樣本對應的預測概率,包括:
基于LightGBM、XGBoost和Neural Network集成學習方法對所述合并數據集中的缺陷數據樣本進行預測,以得到所述缺陷樣本數據的預測概率。
4.根據權利要求3所述的方法,其特征在于,所述基于LightGBM、XGBoost和NeuralNetwork集成學習方法對所述合并數據集中的缺陷數據樣本進行預測,以得到所述缺陷樣本數據的預測概率,包括:
基于LightGBM、XGBoost和Neural Network調用機器學習算法庫,通過特征工程、模型調參、模型融合,對所述合并數據集中的缺陷數據樣本進行預測,得到所述缺陷樣本數據的預測概率。
5.根據權利要求1所述的方法,其特征在于,所述根據所述預測概率,對所述合并數據集中的缺陷數據樣本進行升序排序,并從所述缺陷數據樣本中篩選出設定比例的缺陷數據樣本,得到所述航天嵌入式軟件對應的驗證數據樣本,包括:
根據所述預測概率,對所述合并數據集中的缺陷數據樣本進行升序排序,得到排序缺陷數據樣本;
從所述排序缺陷數據樣本中篩選出排序靠后的15%的缺陷數據樣本,作為所述驗證數據樣本。
6.一種基于航天軟件缺陷數據集類不平衡的對抗驗證裝置,其特征在于,包括:
缺陷數據集獲取模塊,用于獲取航天嵌入式軟件對應的缺陷數據訓練集和缺陷數據測試集;
合并數據集生成模塊,用于合并所述缺陷數據訓練集和所述缺陷數據測試集,生成合并數據集;
樣本預測概率確定模塊,用于基于集成學習方法對所述合并數據集中的缺陷數據樣本進行預測,確定所述缺陷數據樣本對應的預測概率;
驗證數據樣本獲取模塊,用于根據所述預測概率,對所述合并數據集中的缺陷數據樣本進行升序排序,并從所述缺陷數據樣本中篩選出設定比例的缺陷數據樣本,得到所述航天嵌入式軟件對應的驗證數據樣本。
7.根據權利要求6所述的裝置,其特征在于,在所需訓練的模型為樹模型時,所述缺陷數據訓練集和所述缺陷數據測試集的度量元包括詞匯數、詞匯頻率、語句平均復雜度、交點復雜度、非循環路徑數目、可執行語句行數、代碼行、非注釋非空行、LCSAJ數目、最大LCSAJ密度、廣度優先調用層次、深度優先調用層次、非重復操作符個數、基本圈復雜度和McCabe復雜度;
在所需訓練的模型為神經網絡模型時,所述缺陷數據訓練集和所述缺陷數據測試集的度量元包括代碼行數、空白行數、可執行行數、注釋行數、路徑數、基本圈復雜度和最大嵌套深度;
所述缺陷數據訓練集和所述缺陷數據測試集類不平衡軟件缺陷率的范圍為[0.41%,9.50%]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京軒宇信息技術有限公司,未經北京軒宇信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011314574.8/1.html,轉載請聲明來源鉆瓜專利網。





