[發(fā)明專利]基于航天軟件缺陷數(shù)據(jù)集類不平衡的對(duì)抗驗(yàn)證方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011314574.8 | 申請(qǐng)日: | 2020-11-20 |
| 公開(公告)號(hào): | CN112380132A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 江云松;馮濤;李鵬宇;高猛;滕俊元 | 申請(qǐng)(專利權(quán))人: | 北京軒宇信息技術(shù)有限公司 |
| 主分類號(hào): | G06F11/36 | 分類號(hào): | G06F11/36;G06K9/62;G06N20/20 |
| 代理公司: | 中國航天科技專利中心 11009 | 代理人: | 陳鵬 |
| 地址: | 100190 北京市海淀區(qū)科學(xué)院*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 航天 軟件 缺陷 數(shù)據(jù) 不平衡 對(duì)抗 驗(yàn)證 方法 裝置 | ||
本發(fā)明實(shí)施例公開了一種基于航天軟件缺陷數(shù)據(jù)集類不平衡的對(duì)抗驗(yàn)證方法及裝置。所述方法包括:獲取航天嵌入式軟件對(duì)應(yīng)的缺陷數(shù)據(jù)訓(xùn)練集和缺陷數(shù)據(jù)測(cè)試集;合并所述缺陷數(shù)據(jù)訓(xùn)練集和所述缺陷數(shù)據(jù)測(cè)試集,生成合并數(shù)據(jù)集;基于集成學(xué)習(xí)方法對(duì)所述合并數(shù)據(jù)集中的缺陷數(shù)據(jù)樣本進(jìn)行預(yù)測(cè),確定所述缺陷數(shù)據(jù)樣本對(duì)應(yīng)的預(yù)測(cè)概率;根據(jù)所述預(yù)測(cè)概率,對(duì)所述合并數(shù)據(jù)集中的缺陷數(shù)據(jù)樣本進(jìn)行升序排序,并從所述缺陷數(shù)據(jù)樣本中篩選出設(shè)定比例的缺陷數(shù)據(jù)樣本,得到所述航天嵌入式軟件對(duì)應(yīng)的驗(yàn)證數(shù)據(jù)樣本。本發(fā)明實(shí)施例提供了切實(shí)可行的缺陷數(shù)據(jù)集的對(duì)抗驗(yàn)證方法,能夠解決航天嵌入式軟件缺陷預(yù)測(cè)工程實(shí)踐測(cè)試集與訓(xùn)練集分布不一致的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及軟件缺陷預(yù)測(cè)技術(shù)領(lǐng)域,特別是一種基于航天軟件缺陷數(shù)據(jù)集類不平衡的對(duì)抗驗(yàn)證方法及裝置。
背景技術(shù)
選擇合適的學(xué)習(xí)算法進(jìn)行適當(dāng)?shù)挠?xùn)練是基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測(cè)的核心。為了能夠?qū)⒌念A(yù)測(cè)模型進(jìn)行性能分析,往往會(huì)將歷史數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集兩部分,其中測(cè)試集和驗(yàn)證集中的樣本不重疊。為了使歷史數(shù)據(jù)中所有的樣本都能夠得到檢驗(yàn),訓(xùn)練集和驗(yàn)證集的劃分會(huì)重復(fù)多次進(jìn)行,以對(duì)預(yù)測(cè)模型進(jìn)行有效的測(cè)試,常用的劃分方法為M×N交叉驗(yàn)證法。
在航天嵌入式軟件缺陷預(yù)測(cè)真實(shí)的業(yè)務(wù)場(chǎng)景中,由于數(shù)據(jù)集采樣和缺陷數(shù)據(jù)集分布規(guī)律的原因?qū)е掠?xùn)練集和工程實(shí)踐測(cè)試集存在分布不一致的情況,這時(shí)候交叉驗(yàn)證的方法無法準(zhǔn)確的評(píng)估模型在工程實(shí)踐測(cè)試集上的效果,模型在工程實(shí)踐測(cè)試集上的效果遠(yuǎn)低于訓(xùn)練集。樣本分布變化主要體現(xiàn)在訓(xùn)練集和工程實(shí)踐測(cè)試集的數(shù)據(jù)分布存在差異,例如函數(shù)度量的非循環(huán)路徑數(shù)目、基本圈復(fù)雜度、非重復(fù)操作符個(gè)數(shù)、廣度優(yōu)先調(diào)用層次、最大嵌套深度隨著時(shí)間的變化,數(shù)據(jù)樣本分布也發(fā)生了變化。
因此,更好的解決航天嵌入式軟件缺陷預(yù)測(cè)工程實(shí)踐測(cè)試集與訓(xùn)練集分布不一致的問題,提高軟件缺陷預(yù)測(cè)的準(zhǔn)確性,成為同行從業(yè)人員亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題是:克服現(xiàn)有技術(shù)的不足,提供了一種基于航天軟件缺陷數(shù)據(jù)集類不平衡的對(duì)抗驗(yàn)證方法及裝置。
為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種基于航天軟件缺陷數(shù)據(jù)集類不平衡的對(duì)抗驗(yàn)證方法,包括:
獲取航天嵌入式軟件對(duì)應(yīng)的缺陷數(shù)據(jù)訓(xùn)練集和缺陷數(shù)據(jù)測(cè)試集;
合并所述缺陷數(shù)據(jù)訓(xùn)練集和所述缺陷數(shù)據(jù)測(cè)試集,生成合并數(shù)據(jù)集;
基于集成學(xué)習(xí)方法對(duì)所述合并數(shù)據(jù)集中的缺陷數(shù)據(jù)樣本進(jìn)行預(yù)測(cè),確定所述缺陷數(shù)據(jù)樣本對(duì)應(yīng)的預(yù)測(cè)概率;
根據(jù)所述預(yù)測(cè)概率,對(duì)所述合并數(shù)據(jù)集中的缺陷數(shù)據(jù)樣本進(jìn)行升序排序,并從所述缺陷數(shù)據(jù)樣本中篩選出設(shè)定比例的缺陷數(shù)據(jù)樣本,得到所述航天嵌入式軟件對(duì)應(yīng)的驗(yàn)證數(shù)據(jù)樣本。
可選地,在所需訓(xùn)練的模型為樹模型時(shí),所述缺陷數(shù)據(jù)訓(xùn)練集和所述缺陷數(shù)據(jù)測(cè)試集的度量元包括詞匯數(shù)、詞匯頻率、語句平均復(fù)雜度、交點(diǎn)復(fù)雜度、非循環(huán)路徑數(shù)目、可執(zhí)行語句行數(shù)、代碼行、非注釋非空行、LCSAJ數(shù)目、最大LCSAJ密度、廣度優(yōu)先調(diào)用層次、深度優(yōu)先調(diào)用層次、非重復(fù)操作符個(gè)數(shù)、基本圈復(fù)雜度和McCabe復(fù)雜度;
在所需訓(xùn)練的模型為神經(jīng)網(wǎng)絡(luò)模型時(shí),所述缺陷數(shù)據(jù)訓(xùn)練集和所述缺陷數(shù)據(jù)測(cè)試集的度量元包括代碼行數(shù)、空白行數(shù)、可執(zhí)行行數(shù)、注釋行數(shù)、路徑數(shù)、基本圈復(fù)雜度和最大嵌套深度;
所述缺陷數(shù)據(jù)訓(xùn)練集和所述缺陷數(shù)據(jù)測(cè)試集類不平衡軟件缺陷率的范圍為[0.41%,9.50%]。
可選地,所述基于集成學(xué)習(xí)方法對(duì)所述合并數(shù)據(jù)集中的缺陷數(shù)據(jù)樣本進(jìn)行預(yù)測(cè),確定所述缺陷數(shù)據(jù)樣本對(duì)應(yīng)的預(yù)測(cè)概率,包括:
基于LightGBM、XGBoost和Neural Network集成學(xué)習(xí)方法對(duì)所述合并數(shù)據(jù)集中的缺陷數(shù)據(jù)樣本進(jìn)行預(yù)測(cè),以得到所述缺陷樣本數(shù)據(jù)的預(yù)測(cè)概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京軒宇信息技術(shù)有限公司,未經(jīng)北京軒宇信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011314574.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 一種基于應(yīng)用軟件散布的軟件授權(quán)與保護(hù)方法及系統(tǒng)
- 一種用于航空機(jī)載設(shè)備的軟件在線加載系統(tǒng)及方法
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 惡意軟件檢測(cè)方法及裝置
- 一種基于軟件基因的軟件同源性分析方法和裝置
- 軟件引入系統(tǒng)、軟件引入方法及存儲(chǔ)介質(zhì)
- 軟件驗(yàn)證裝置、軟件驗(yàn)證方法以及軟件驗(yàn)證程序
- 使用靜態(tài)和動(dòng)態(tài)惡意軟件分析來擴(kuò)展惡意軟件的動(dòng)態(tài)檢測(cè)
- 一種工業(yè)控制軟件構(gòu)建方法和軟件構(gòu)建系統(tǒng)
- 可替換游戲軟件與測(cè)驗(yàn)軟件的裝置與方法





