[發(fā)明專利]一種針對于缺陷報告的多標(biāo)簽標(biāo)記方法有效
| 申請?zhí)枺?/td> | 202010984558.3 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112181814B | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計)人: | 謝曉園;陳崧強;蘇宇輝;晉碩;姬淵翔 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 缺陷 報告 標(biāo)簽 標(biāo)記 方法 | ||
本發(fā)明提供了一種針對于缺陷報告的多標(biāo)簽標(biāo)記方法。本發(fā)明由用戶指定待選標(biāo)簽集合,根據(jù)該集合構(gòu)建初始多標(biāo)簽訓(xùn)練數(shù)據(jù)集,通過人工補全方法進行第一輪標(biāo)簽補全得到第一輪補全后的多標(biāo)簽訓(xùn)練數(shù)據(jù)集,使用二分類預(yù)測方法自動第二輪標(biāo)簽補全得到第二輪補全后的多標(biāo)簽訓(xùn)練數(shù)據(jù)集,再通過人工補全方法進行第三輪標(biāo)簽補全得到最終多標(biāo)簽訓(xùn)練數(shù)據(jù)集;構(gòu)建基于快速文本分類器算法的文本多類分類模型,基于最終多標(biāo)簽訓(xùn)練數(shù)據(jù)集進行訓(xùn)練,得到訓(xùn)練后的文本多分類模型作為訓(xùn)練后缺陷報告標(biāo)簽預(yù)測器;使用訓(xùn)練后缺陷報告標(biāo)簽預(yù)測器為缺陷報告進行多標(biāo)簽標(biāo)記,并收集用戶反饋以即時更新預(yù)測性能。本發(fā)明提供了一種高效地為缺陷報告預(yù)測并標(biāo)記多個標(biāo)簽的方法。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體涉及一種針對于缺陷報告的多標(biāo)簽標(biāo)記方法。
背景技術(shù)
缺陷報告在軟件開發(fā)中起著重要作用,日益成熟的缺陷跟蹤系統(tǒng)隨著對缺陷報告管理能力的不斷提升,也為現(xiàn)代軟件開發(fā)提供了更加便捷的缺陷報告整理服務(wù)。例如,多合一編碼社區(qū)GitHub,已將基于Git版本控制系統(tǒng)與一個輕量級的缺陷跟蹤系統(tǒng)集成在一起,提供便捷的編碼服務(wù)。這個缺陷報告跟蹤系統(tǒng)有助于為許多開源項目記錄數(shù)以千計的缺陷報告。
缺陷報告跟蹤系統(tǒng)的一項非常重要的功能是為缺陷報告分配標(biāo)簽。缺陷報告的標(biāo)簽有助于幫助開發(fā)者對缺陷報告進行快速地分類或標(biāo)識。
在實際的項目中,缺陷報告常常包含多個標(biāo)簽。例如,報告記錄了一個后端相關(guān)的錯誤,因此它應(yīng)該同時具有“bug”和“backend”標(biāo)簽。
人工為缺陷報告標(biāo)記標(biāo)簽常常耗費人力,且容易造成漏標(biāo)、誤標(biāo)。自動化的標(biāo)記方法將能夠有效地提供更可靠的標(biāo)記能力。
然而,現(xiàn)有自動化標(biāo)記技術(shù)中,對缺陷報告添加多標(biāo)簽的方法主要是使用多個單標(biāo)簽進行多次二分類預(yù)測,以達(dá)到預(yù)測多標(biāo)簽的效果。這種添加多標(biāo)簽的方法有局限性。其最大的弊端在于利用多個單標(biāo)簽分類器的組合形式完成多標(biāo)簽的分類任務(wù)是低效的,因為這種方法不能夠快速地、一次性地給出全部標(biāo)簽。
對含有多個方面問題的缺陷報告進行標(biāo)簽分類,僅依次使用單標(biāo)簽分類方法甚至可能無法正常工作。例如,若使用將缺陷報告分入“錯誤(bug)”和“非錯誤(non-bug)”之一的分類器,對同時含有同時包含“錯誤(bug)”和“增強(enhancement)”兩個標(biāo)簽的缺陷報告進行標(biāo)簽分類,由于這類報告既屬于錯誤也屬于非錯誤(增強),單標(biāo)簽二分類的標(biāo)簽預(yù)測方式只能給出“bug”和“non-bug”之一的標(biāo)簽,不能同時給出這兩個標(biāo)簽。這將會使得分類器無法給出正確的多標(biāo)簽預(yù)測結(jié)果。
相反,一個更快的多標(biāo)簽分類模型來對問題報告進行多標(biāo)簽預(yù)測則能夠一次性預(yù)測出所有標(biāo)簽,并能夠同時評估預(yù)測是否應(yīng)當(dāng)為待標(biāo)記標(biāo)簽的缺陷報告標(biāo)記多個標(biāo)簽。多標(biāo)簽預(yù)測器將帶來高效、有效的缺陷報告標(biāo)記服務(wù)。
然而,構(gòu)建缺陷報告多標(biāo)簽預(yù)測器并不容易,其中最大的不足即缺乏合適的缺陷報告多標(biāo)簽標(biāo)記訓(xùn)練數(shù)據(jù)集。目前缺陷報告的分類研究中涉及到的數(shù)據(jù)集大多都是針對于單標(biāo)簽分類的數(shù)據(jù)集,尚不存在一個針對于多標(biāo)簽分類的缺陷報告數(shù)據(jù)集或?qū)?yīng)數(shù)據(jù)集的構(gòu)建方法。此外,現(xiàn)有標(biāo)簽預(yù)測分類器數(shù)據(jù)集構(gòu)建方法對于不同GitHub倉庫所采用的標(biāo)簽方案的多樣性適配較差。例如在vscode倉庫中,有一些與編輯器相關(guān)的標(biāo)簽,類似于“editor-clipboard”,“editor-wrapping”等。但是,若要對來自于跨倉庫的缺陷報告添加標(biāo)簽,如何篩選并統(tǒng)一標(biāo)簽,是標(biāo)簽分類將遇到的問題?,F(xiàn)存的單標(biāo)簽方法在標(biāo)簽的統(tǒng)一化上有一定的工作,但是統(tǒng)一的標(biāo)簽種類不夠多,不能夠達(dá)到多標(biāo)簽的數(shù)據(jù)要求。如何有效地構(gòu)建缺陷報告多標(biāo)簽標(biāo)記訓(xùn)練數(shù)據(jù)集是一個重要問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種針對于缺陷報告的多標(biāo)簽標(biāo)記方法,用以解決現(xiàn)有技術(shù)中的方法存在的問題。
本發(fā)明提供了一種針對于缺陷報告的多標(biāo)簽標(biāo)記方法。本方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010984558.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





