[發明專利]一種基于多方法集成學習的自承認技術債務檢測分類方法在審
| 申請號: | 202010568813.6 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111782807A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 殷茗;徐悅然;田嘉毅;朱奎宇;馬懷宇;張小港;薛禹坤;吳瑜 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多方 集成 學習 承認 技術 債務 檢測 分類 方法 | ||
1.一種基于多方法集成學習的自承認技術債務檢測分類方法,其特征在于步驟如下:
步驟1:對特征詞進行預處理
使用啟發式的規則處理原始注釋數據:
(1)、刪除編譯器自動生成的帶有固定格式的許可證描述類注釋;
(2)、將多行注釋合并為一句;
(3)、刪除存在于注釋語句中的代碼;
(4)、將不含有保留字的Javadoc刪除,保留含有保留字的注釋語句;
步驟2:選取前k個最有用的特征來訓練分類器
在對源項目注釋進行文本預處理后,本發明使用向量空間模型VSM來處理已經被劃分為特征的單詞;在此模型中,用單詞向量表示每一句注釋,可以將劃分出的單詞特征視為維度,將每一句注釋視為高維空間中的數據點;本發明使用HashMap來作為VSM模型的映射,其中字符型標識為劃分出的特征,雙精度型數值為詞頻,即特征在當前注釋中出現的次數,并且將次數經過了標準化處理;
采用信息增益這種使用廣泛的特征選擇方法來選擇有用的特征:令注釋數據集表示為C={(C1,L1),(C2,L2),...,(CN,LN)},Ci代表第i條注釋,Li代表了該條注釋的分類標簽,即是(t)否存在自承認技術債務;還需令Ci={w1,w2,…,wn},其中n代表注釋Ci中的特征個數,wi代表了該句注釋中的第i個特征;對于一個特征w和一條注釋Ci,它們之間存在4種可能的關系:
·(w,t):注釋Ci包含特征w,并且該句注釋中存在自承認技術債務(i.e.,t)
·注釋Ci包含特征w,但該句注釋中不存在自承認技術債務
·注釋Ci不包含特征w,但該句注釋中存在自承認技術債務(i.e.,t)
·注釋Ci不含特征w,且該句注釋中不存在自承認技術債務
基于上述4種可能的關系,特征w和標簽t的信息增益計算如下:
其中,p(w′,t′)表示特征w′出現在具有標簽t′的注釋中的概率,p(w′)表示特征w′出現在注釋中的概率,p(t′)表示注釋具有標簽t′的概率;
在使用信息增益的方法計算每一個特征對應的信息增益值后,將特征按照信息增益值的大小,從大到小排序;分數越高,則說明特征在預測分類標簽時越重要;本發明選擇信息增益值在前k%的特征,并舍棄其他特征;
步驟3:使用樸素貝葉斯多項式和線性Logistic回歸訓練子分類器
(1):Native Bayes Multinomial
本發明將六個分類器,即2號、3號、4號、5號、6號、8號分類器設置為多項式樸素貝葉斯分類器NBM,使用NBM方法進行訓練;令注釋集為Ci={w1,w2,…,wn},分類標簽為Li,可得:
在式(3)上應用貝葉斯定理,可得:
通過式(4)來標識注釋的分類標簽;
(2):Simple Logistic
本實驗將兩個分類器,即1號、7號分類器設置為線性邏輯回歸分類器SimpleLogistic;令注釋數據集表示為C={(C1,L1),(C2,L2),...,(CN,LN)},其中Ci代表第i條注釋,Li代表了該條注釋的分類標簽,即是否存在自承認技術債務;除此之外,還需令Ci表示為Ci={w1,w2,…,wn},其中n代表注釋Ci中的特征個數,wi代表了該句注釋中的第i個特征;根據線性邏輯回歸定理,可得:
z=θ1w1+θ2w2+…+θnwn+θ0=θTCi (5)
將其帶入sigmoid函數,函數表示如下:
根據sigmoid函數的最終結果,將待測注釋分為兩類,其中分類標簽值為1的即為存在自承認技術債務的注釋語句;
步驟4:子分類器投票規則
采用投票規則將多數子分類器預測的分類標簽結果作為最終的集成分類器的預測結果;
步驟5:聚類進行自承認技術債務分類
本發明將上述步驟中通過信息增益值選取的特征,根據特征出現的頻率、特征出現的位置以及開發人員的特性對原有數據進行再篩選和刪除,并使用聚類的方法,最終將特征單詞分類。
2.根據權利要求1所述的一種基于多方法集成學習的自承認技術債務檢測分類方法,其特征在于步驟2中所述的k%為10%。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010568813.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種緩存服務系統
- 下一篇:一種重型汽車車架彎扭疲勞試驗臺架裝置及其方法





