[發(fā)明專利]一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310584439.2 | 申請(qǐng)日: | 2023-05-23 |
| 公開(公告)號(hào): | CN116578928A | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 徐超 | 申請(qǐng)(專利權(quán))人: | 江蘇大學(xué) |
| 主分類號(hào): | G06F18/2413 | 分類號(hào): | G06F18/2413;G06F18/214;G06F18/21;G06F18/2451;G06F18/23213;G06F18/25;G06N20/20 |
| 代理公司: | 南京智造力知識(shí)產(chǎn)權(quán)代理有限公司 32382 | 代理人: | 汪芬 |
| 地址: | 212013 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 集成 剪枝 軟件 缺陷 數(shù)據(jù) 分類 方法 | ||
1.一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于:包括以下步驟:(1)加載軟件缺陷數(shù)據(jù)集信息;(2)使用bootstrap方法得到不同的訓(xùn)練集,將所有的數(shù)據(jù)集用于訓(xùn)練不同的基分類器;(3)對(duì)于驗(yàn)證集的生成,使用KNN算法獲得在訓(xùn)練集上與測(cè)試集相似的數(shù)據(jù)集作為驗(yàn)證集,并得到每個(gè)分類器的性能;(4)進(jìn)化聚類算法的數(shù)據(jù)集構(gòu)成,使用每個(gè)基分類器對(duì)驗(yàn)證集的置信度構(gòu)成數(shù)據(jù)集;(5)使用進(jìn)化聚類方法得到全局最優(yōu)的聚類結(jié)果,將所有的基分類器進(jìn)行分組;(6)根據(jù)精度最大原則,從每個(gè)分組中選擇基分類器,減少集成學(xué)習(xí)在軟件缺陷數(shù)據(jù)集上的運(yùn)行時(shí)間和內(nèi)存的需要,提高對(duì)未知軟件缺陷數(shù)據(jù)的適應(yīng)能力。
2.根據(jù)權(quán)利要求1所述的一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于,所述步驟(1)加載輸入的軟件缺陷數(shù)據(jù)集,首先判斷該數(shù)據(jù)集是否是分類問題數(shù)據(jù)集,然后對(duì)該數(shù)據(jù)集的實(shí)例信息,特征數(shù)信息,和類別信息進(jìn)行統(tǒng)計(jì),最后根據(jù)one-hot編碼對(duì)字符類型的類別轉(zhuǎn)換為數(shù)字類型。
3.根據(jù)權(quán)利要求1所述的一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于,所述步驟(2)根據(jù)基分類器數(shù)量,使用bootstrap取樣獲得不同子訓(xùn)練集用于訓(xùn)練不同的基分類器,并保證基分類器之間的多樣性。
4.根據(jù)權(quán)利要求1所述的一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于,所述步驟(3)驗(yàn)證集的生成和獲得基分類器性能的步驟如下:
步驟3.1:設(shè)置KNN算法的超參數(shù),用以得到合適數(shù)量的驗(yàn)證集實(shí)例;
步驟3.2:使用測(cè)試集作為KNN算法的訓(xùn)練集,并將訓(xùn)練好的KNN算法用于測(cè)試原始訓(xùn)練集,得到訓(xùn)練集中存在重復(fù)實(shí)例,去除重復(fù),該數(shù)據(jù)集即為基分類器的驗(yàn)證集;
步驟3.3:得到所有的基分類器的驗(yàn)證集后,每個(gè)基分類器用于預(yù)測(cè)驗(yàn)證集,計(jì)算其精度,并將精度降序排序,選擇前50%的基分類器用于分組。
5.根據(jù)權(quán)利要求1所述的一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于,所述步驟(4)進(jìn)化聚類數(shù)據(jù)集構(gòu)成步驟如下:
步驟4.1:獲得所有基分類器在驗(yàn)證集上的置信度分?jǐn)?shù),在驗(yàn)證集上,假設(shè)有N個(gè)樣本,且標(biāo)簽個(gè)數(shù)為M,對(duì)于一個(gè)基學(xué)習(xí)器w在驗(yàn)證集上的分?jǐn)?shù)結(jié)構(gòu)其中表示基學(xué)習(xí)器w為第i個(gè)樣本屬于第j個(gè)標(biāo)簽的概率;此時(shí)每個(gè)分?jǐn)?shù)構(gòu)成為一個(gè)二維數(shù)組,然后通過轉(zhuǎn)換,變成一個(gè)大小相同的一維數(shù)組;
步驟4.2:轉(zhuǎn)化為一維數(shù)據(jù)后,將所有的基分類器的置信度拼接為一個(gè)二維數(shù)組,此時(shí)的二維數(shù)據(jù)即為進(jìn)化聚類算法的數(shù)據(jù)集。
6.根據(jù)權(quán)利要求1所述的一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于,所述步驟(5)使用進(jìn)化聚類方法得到全局最優(yōu)聚類結(jié)果步驟如下:
步驟5.1:設(shè)定進(jìn)化聚類算法超參數(shù),如人口數(shù)為200,迭代次數(shù)為200,變異概率為0.5%;
步驟5.2:種群的初始化,使用K-means方法對(duì)聚類數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測(cè),K-means得到的聚類結(jié)果作為一個(gè)個(gè)體的染色體;然后在此基礎(chǔ)上,使用隨機(jī)函數(shù),隨機(jī)選擇位置,隨機(jī)改變其簇類結(jié)果;此時(shí)得到的種群中,個(gè)體染色體存在較大差別,保證了初始種群的多樣性;
步驟5.3:對(duì)于種群個(gè)體適應(yīng)度計(jì)算,這里采用監(jiān)督分類器計(jì)算每個(gè)個(gè)體的適應(yīng)度,選擇一定數(shù)量的訓(xùn)練集來(lái)訓(xùn)練每個(gè)監(jiān)督分類器,計(jì)算每個(gè)監(jiān)督分類器在測(cè)試集上的F1分?jǐn)?shù),并求平均值,該平均值就會(huì)作為該個(gè)體的適應(yīng)度;
步驟5.4:計(jì)算完成初始種群個(gè)體的適應(yīng)度后,使用競(jìng)標(biāo)賽算子選擇父母一代;
步驟5.5:在使用單點(diǎn)交叉算子用于父母?jìng)€(gè)體,生成的新個(gè)體具有父母的特征,同時(shí)在更好適應(yīng)度的條件下,有可能產(chǎn)生更優(yōu)秀的后代;
步驟5.6:完成單點(diǎn)交叉后,使用交換變異算子,提高進(jìn)化聚類算法的搜索能力和效果;
步驟5.7:完成三個(gè)操作算子后,按照設(shè)定的迭代次數(shù)淘汰選擇個(gè)體,并從中選擇適應(yīng)度最大的個(gè)體;
步驟5.8:得到全局適應(yīng)度最大的個(gè)體,按照這個(gè)聚類結(jié)果,將所用參與進(jìn)化聚類算法數(shù)據(jù)集組成的基分類器進(jìn)行分組。
7.根據(jù)權(quán)利要求1所述的一種基于集成剪枝的軟件缺陷數(shù)據(jù)集分類方法,其特征在于,所述步驟(6)根據(jù)精度最大原則從每個(gè)組中選擇基分類器步驟如下:
步驟6.1:首先從第一個(gè)組中選擇在驗(yàn)證集上精度最大基分類器,加入集成剪枝模型;
步驟6.2:對(duì)于第二組的基分類器選擇使用順序正向選擇方法,把第二組的每個(gè)基分類器和集成剪枝模型中的基分類器進(jìn)行融合,選擇集成精度最大基分類器,對(duì)所有的分組進(jìn)行同樣的操作;
步驟6.3:如果遍歷完所有分組后,集成剪枝模型中的基分類器數(shù)量仍不滿足集成剪枝數(shù)量,重新從第一組開始遍歷,直到滿足剪枝數(shù)量要求。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇大學(xué),未經(jīng)江蘇大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310584439.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 企業(yè)應(yīng)用集成平臺(tái)構(gòu)建方法和體系結(jié)構(gòu)
- 竹集成材折疊椅
- 高精密集成化油路板
- 一種多指標(biāo)集成試劑并行檢測(cè)任意組合集成器
- 一種多指標(biāo)集成試劑并行檢測(cè)任意組合集成器
- 一種基于響應(yīng)的高并發(fā)輕量級(jí)數(shù)據(jù)集成架構(gòu)的實(shí)現(xiàn)方法及其系統(tǒng)
- 基于測(cè)試流程改進(jìn)的系統(tǒng)集成方法及裝置
- 一種數(shù)據(jù)映射集成的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種便捷式電器置換集成灶
- 分體式集成灶用穿線裝置
- 基于直方圖獲取有效HMM的預(yù)剪枝方案
- 一種用于林業(yè)采伐的剪枝器械
- 一種語(yǔ)音識(shí)別或圖像識(shí)別中的卷積核處理方法及裝置
- 一種用于多段式可變幅剪枝裝置的多段剪枝部件
- 基于目標(biāo)檢測(cè)模型的剪枝方法、裝置和存儲(chǔ)介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)模型的剪枝方法及裝置
- 一種剪枝神經(jīng)網(wǎng)絡(luò)模型的方法和裝置
- 機(jī)器學(xué)習(xí)模型的剪枝方法、裝置、設(shè)備、程序產(chǎn)品及介質(zhì)
- 一種目標(biāo)圖像處理模型的確定方法、裝置及存儲(chǔ)介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)通用壓縮架構(gòu)的自動(dòng)剪枝方法及平臺(tái)
- 一種基于應(yīng)用軟件散布的軟件授權(quán)與保護(hù)方法及系統(tǒng)
- 一種用于航空機(jī)載設(shè)備的軟件在線加載系統(tǒng)及方法
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 惡意軟件檢測(cè)方法及裝置
- 一種基于軟件基因的軟件同源性分析方法和裝置
- 軟件引入系統(tǒng)、軟件引入方法及存儲(chǔ)介質(zhì)
- 軟件驗(yàn)證裝置、軟件驗(yàn)證方法以及軟件驗(yàn)證程序
- 使用靜態(tài)和動(dòng)態(tài)惡意軟件分析來(lái)擴(kuò)展惡意軟件的動(dòng)態(tài)檢測(cè)
- 一種工業(yè)控制軟件構(gòu)建方法和軟件構(gòu)建系統(tǒng)
- 可替換游戲軟件與測(cè)驗(yàn)軟件的裝置與方法





