[發明專利]一種基于集成剪枝的軟件缺陷數據集分類方法在審
| 申請號: | 202310584439.2 | 申請日: | 2023-05-23 |
| 公開(公告)號: | CN116578928A | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 徐超 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F18/2413 | 分類號: | G06F18/2413;G06F18/214;G06F18/21;G06F18/2451;G06F18/23213;G06F18/25;G06N20/20 |
| 代理公司: | 南京智造力知識產權代理有限公司 32382 | 代理人: | 汪芬 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 剪枝 軟件 缺陷 數據 分類 方法 | ||
本發明公開了一種基于集成剪枝的軟件缺陷數據集分類方法,該框架包括:加入需要分類的軟件缺陷數據集,然后根據bootstrap取樣方法,取樣多次,對多個基學習器進行訓練,再使用KNN算法在驗證集上找到測試集的鄰居重新構成驗證集。把得到的基學習器用于預測驗證集,獲得每一個基學習器的精度,排序,選擇前50%的基學習器。最后使用遺傳算法得到一個全局最好的個體,在每一個簇中篩選基學習器。本發明基于遺傳算法原理的剪枝框架,從而可以減少集成學習在軟件缺陷數據集上的時間,內存成本。在集成學習和剪枝算法有著良好的應用的前景。
技術領域
本發明涉及集成學習、剪枝、遺傳算法和軟件缺陷預測具體地,涉及把進化聚類應用的集成剪枝方法中。
背景技術
由于科技的快速發展和互聯網的普及,導致海量、高速、多樣化的數據不斷產生、積累和傳播的現象。大數據的快速積累和處理使得數據逐漸成為企業和組織中重要的資產,能夠為企業和組織提供更多的商業價值。通過對大數據的分析和挖掘,可以發現隱藏在數據中的規律和趨勢,從而做出更加明智的決策。
單一的學習算法或模型在面對復雜的數據時可能存在一定的局限性,如過擬合、欠擬合、高偏差或高方差等。這可能導致預測性能不理想或無法滿足實際需求。集成學習通過將多個學習算法或模型組合起來,集成學習可以通過共同決策、投票、加權等方式獲得更為準確和穩健的預測結果。集成學習可以充分利用不同模型之間的互補性,從而提高模型的泛化能力、降低模型的過擬合風險,同時也能夠在處理大規模數據和復雜任務時提供更好的性能。
集成剪枝是一種將集成學習和模型剪枝技術相結合的方法,旨在通過去除集成模型中的冗余和不必要的部分,從而提高模型的預測性能和模型的解釋性。
在實際應用中,隨著數據規模和模型復雜度的不斷增加,模型的解釋性和可解釋性成為越來越重要的需求。復雜的集成模型可能在預測性能上表現出色,但其對于模型內部的決策過程和特征重要性的解釋性較差,這對于一些對模型解釋性有要求的場景,如金融、醫療、法律等領域,可能存在限制。因此,需要一種方法來在保持預測性能的同時,提高模型的解釋性和可解釋性,降低大數據處理對能源的過分消耗。
發明內容
在實際應用中,模型的泛化性能和穩健性是至關重要的。復雜的集成模型可能存在過擬合、泛化能力下降和對輸入數據的高度敏感性等問題。通過剪枝集成模型,可以去除冗余和不必要的模型部分,從而減小模型的復雜度,提高模型的泛化性能和穩健性,從而節約計算機對電力的消耗和達到保護計算機存儲器件的目的。
為了實現上述目的,本發明的技術方案為:
一種基于集成剪枝的軟件缺陷數據集分類方法,其特征在于:包括以下步驟:
(1)加載軟件缺陷數據集信息(2)使用bootstrap方法得到不同的訓練集,將所有的數據集用于訓練不同的基分類器(3)對于驗證集的生成,使用KNN算法獲得在訓練集上與測試集相似的數據集作為驗證集,并得到每個分類器的性能(4)進化聚類算法的數據集構成,使用每個基分類器對驗證集的置信度構成數據集(5)使用進化聚類方法得到全局最優的聚類結果,將所有的基分類器進行分組(6)根據精度最大原則,從每個分組中選擇基分類器。減少集成學習在軟件缺陷數據集上的運行時間和內存的需要,提高對未知軟件缺陷數據的適應能力。
進一步,所述步驟(1)加載輸入的軟件缺陷數據集,首先判斷該數據集是否是分類問題數據集,然后對該數據集的實例信息,特征數信息,和類別信息進行統計。最后根據one-hot編碼對字符類型的類別轉換為數字類型。
根據權利要求1所述的一種基于集成剪枝的軟件缺陷數據集分類方法,其特征在于,所述步驟(2)根據基分類器數量,使用bootstrap取樣獲得不同子訓練集用于訓練不同的基分類器,并保證基分類器之間的多樣性。
進一步,所述步驟(3)驗證集的生成和獲得基分類器性能的步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310584439.2/2.html,轉載請聲明來源鉆瓜專利網。





