[發(fā)明專利]一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法在審
| 申請?zhí)枺?/td> | 201810601343.1 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108984613A | 公開(公告)日: | 2018-12-11 |
| 發(fā)明(設(shè)計)人: | 鄭征;杜曉婷;肖冠平 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京慧泉知識產(chǎn)權(quán)代理有限公司 11232 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 缺陷報告 項目分類 遷移 目標數(shù)據(jù) 訓(xùn)練數(shù)據(jù) 語義模型 自動分類 分類器 源數(shù)據(jù) 準確率 預(yù)處理 學(xué)習(xí) 測試數(shù)據(jù) 分類結(jié)果 機器學(xué)習(xí) 計算步驟 數(shù)據(jù)訓(xùn)練 向量表示 選擇數(shù)據(jù) 語義信息 引入 權(quán)重 | ||
本發(fā)明公開了一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法,包括以下步驟:(1)、選擇數(shù)據(jù),確定源數(shù)據(jù)和目標數(shù)據(jù),并對數(shù)據(jù)進行預(yù)處理;(2)、通過訓(xùn)練缺陷報告語義模型,計算步驟(1)中每個缺陷報告的向量表示;(3)、將步驟(2)中的源數(shù)據(jù)和目標數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),通過遷移學(xué)習(xí)調(diào)整訓(xùn)練數(shù)據(jù)的權(quán)重,使分類結(jié)果誤差最小;(4)、使用步驟(3)中遷移得到的數(shù)據(jù)訓(xùn)練分類器,通過機器學(xué)習(xí)分類器對目標數(shù)據(jù)進行跨項目分類。本發(fā)明通過將遷移學(xué)習(xí)引入到缺陷報告的跨項目分類中,提高了缺陷報告跨項目分類的準確率,訓(xùn)練缺陷報告語義模型,將語義信息引入到缺陷報告的自動分類中,提高了對缺陷報告進行自動分類的準確率。
技術(shù)領(lǐng)域
本發(fā)明屬于缺陷報告自動分類技術(shù)領(lǐng)域,尤其涉及一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法。
背景技術(shù)
傳統(tǒng)機器學(xué)習(xí)方法基于的假設(shè)是訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同的特征分布,要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有相同的數(shù)據(jù)分布。當訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間的數(shù)據(jù)分布存在差異時,傳統(tǒng)的機器學(xué)習(xí)方法對結(jié)果的預(yù)測就會變差。然而,在一些實際的機器學(xué)習(xí)場景中,獲得與測試數(shù)據(jù)具有相同特征空間和數(shù)據(jù)分布的訓(xùn)練數(shù)據(jù)是很困難的,或者需要花費很大的代價,使得這種假設(shè)往往無法滿足。在對缺陷進行預(yù)測時就面臨這樣的問題,對于一個新的項目或者歷史數(shù)據(jù)較少的項目,往往無法獲得足夠的缺陷報告,而且對新數(shù)據(jù)進行標記的代價也很高。如何最大限度地利用已有項目的數(shù)據(jù)對新的項目數(shù)據(jù)進行分類成為一個關(guān)鍵問題。
在對缺陷報告進行自動分類時,假設(shè)已經(jīng)獲得了大量標記過的Linux系統(tǒng)的缺陷報告,如果訓(xùn)練數(shù)據(jù)和所要分類的目標數(shù)據(jù)都是來自Linux軟件系統(tǒng),那么傳統(tǒng)的機器學(xué)習(xí)方法就可以得到很好的預(yù)測結(jié)果。但是如果訓(xùn)練數(shù)據(jù)來自Linux,而目標數(shù)據(jù)來自MySQL缺陷報告,由于缺陷報告來自不同的項目,機器學(xué)習(xí)方法的預(yù)測結(jié)果就會變差。
為了彌補上述方法的不足,本發(fā)明提出了一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法。一方面遷移學(xué)習(xí)打破了傳統(tǒng)機器學(xué)習(xí)方法的假設(shè),可以從其他相關(guān)領(lǐng)域遷移信息來提高對某一領(lǐng)域的信息的學(xué)習(xí)。另一方面,提高了缺陷報告跨項目分類的準確率。
發(fā)明內(nèi)容
本發(fā)明的目的是:使用遷移學(xué)習(xí)的方法,提高對缺陷報告跨項目分類的準確率,打破了傳統(tǒng)機器學(xué)習(xí)方法要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同分布的假設(shè),可以從相關(guān)領(lǐng)域遷移信息來提高對某一領(lǐng)域信息的學(xué)習(xí),提出了一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法。
本發(fā)明的技術(shù)方案是:一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法,包括以下步驟:
步驟1)、明確所要分類的目標數(shù)據(jù),根據(jù)目標數(shù)據(jù)的特點選擇與之有相近特征的源數(shù)據(jù),并對目標數(shù)據(jù)和源數(shù)據(jù)均進行文本預(yù)處理;所述的預(yù)處理包括分詞、移除停用詞和詞形還原,排除文本中包含的干擾信息;
步驟2)、訓(xùn)練缺陷報告語義模型,使用大量的無標簽的缺陷報告訓(xùn)練缺陷報告語義模型,得到每個單詞的向量表示,并將步驟1)源數(shù)據(jù)和目標數(shù)據(jù)中的每個缺陷報告都表示成向量的形式;
步驟3)、將步驟2)中的得到的源數(shù)據(jù)和目標數(shù)據(jù)劃分成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)包括所有的源數(shù)據(jù)和10%~20%的目標數(shù)據(jù),測試數(shù)據(jù)包括其余的目標數(shù)據(jù);對訓(xùn)練數(shù)據(jù)賦予初始權(quán)重,通過遷移學(xué)習(xí)不斷調(diào)整訓(xùn)練數(shù)據(jù)的權(quán)重,使對目標數(shù)據(jù)的分類誤差最小;
步驟4)、使用步驟3)中遷移得到的訓(xùn)練數(shù)據(jù)訓(xùn)練機器學(xué)習(xí)分類器,并使用機器學(xué)習(xí)分類器對測試數(shù)據(jù)進行自動分類,得到缺陷報告的跨項目分類結(jié)果。
本發(fā)明一種基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法,與現(xiàn)有方法相比較的優(yōu)點在于:本發(fā)明打破了傳統(tǒng)機器學(xué)習(xí)方法要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從相同分布的假設(shè),可以從相關(guān)領(lǐng)域遷移信息來提高對某一領(lǐng)域信息的學(xué)習(xí),提高了缺陷報告跨項目分類的準確率。
附圖說明
圖1基于遷移學(xué)習(xí)的缺陷報告跨項目分類方法流程示意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810601343.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





