[發明專利]一種針對于缺陷報告的多標簽標記方法有效
| 申請號: | 202010984558.3 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112181814B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 謝曉園;陳崧強;蘇宇輝;晉碩;姬淵翔 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 缺陷 報告 標簽 標記 方法 | ||
1.一種針對于缺陷報告的多標簽標記方法,其特征在于,包括以下步驟:
步驟1:構建缺陷報告數據集,根據缺陷報告數據集構建用戶指定待選標簽集合,根據用戶指定待選標簽集合構建初始多標簽訓練數據集,根據缺陷報告已有標簽情況通過人工補全方法進行第一輪標簽補全得到第一輪補全后的多標簽訓練數據集,使用二分類預測方法自動第二輪標簽補全得到第二輪補全后的多標簽訓練數據集,根據缺陷報告標題與內容單詞情況通過人工補全方法進行第三輪標簽補全得到最終多標簽訓練數據集;
步驟2:構建基于快速文本分類器算法的文本多類別分類器模型,結合最終多標簽訓練數據集進行多輪批次的訓練,得到訓練后的文本多分類模型作為訓練后缺陷報告標簽預測器;
步驟3:使用訓練后缺陷報告標簽預測器為缺陷報告進行多標簽標記,收集缺陷報告中的用戶反饋以及時更新預測模型;
步驟1所述構建缺陷報告數據集為:
所述缺陷報告數據集為:
S={s1,s2,...,sN}
其中,N為收集到的缺陷報告樣本的數量;
缺陷報告數據集中第i個缺陷報告樣本為:
si=(titlei,bodyi,labelseti),i∈[1,N]
其中,titlei為缺陷報告數據集中第i個缺陷報告的標題,bodyi為缺陷報告數據集中第i個缺陷報告的報告主體,labelseti為缺陷報告數據集中第i個缺陷報告的標簽集合;
缺陷報告數據集中第i個缺陷報告樣本的標簽集合為:
其中,Mi表示缺陷報告數據集中第i個缺陷報告的標簽集合中標簽的數量,表示為缺陷報告數據集中第i個缺陷報告的標簽集合中第j個標簽的小寫表示;
步驟1所述根據缺陷報告數據集構建用戶指定待選標簽集合為:
遍歷缺陷報告數據集內所有缺陷報告樣本,取所有缺陷報告樣本的標簽集合的并集,得到缺陷報告數據集上的所有標簽集合為:
其中,Q為缺陷報告數據集上的所有標簽集合中互不相同的樣本標簽的個數,L0內的任意標簽對滿足labelp≠labelq,p≠q;
用戶從L0中指定R個互不相同的標簽作為用戶指定待選標簽集合,具體定義為:
其中,代表第k個待選標簽;
上述用戶指定的待選標簽集合將被作為多標簽預測方法的預測目標;
步驟1所述根據用戶指定待選標簽集合構建初始多標簽訓練數據集為:
對于缺陷報告數據集中的每個缺陷報告樣本si=(titlei,bodyi,labelseti),i∈[1,N],構建對應的初始多標簽訓練樣本
其中,
對于若labelseti中含有第k個待選標簽那么否則
通過構建初始多標簽訓練數據集Dataset0:
其中,Dataset0表示初始多標簽訓練數據集;
步驟1所述根據缺陷報告已有標簽情況通過人工補全方法進行第一輪標簽補全得到第一輪補全后的多標簽訓練數據集為:
首先,對于缺陷報告數據集上的所有標簽集合中的每個標簽即labelk,k∈[1,Q],統計數據集中包含該標簽的樣本的個數labelcntk;
對于缺陷報告數據集上的所有標簽集合L0中的每個標簽labelk∈{label1,label2,...,labelQ},取按數據集中包含每個標簽的樣本個數遞減排名前P位的標簽構成高頻標簽集合Ltop:
將高頻標簽集合即Ltop標簽交付給Θ名研究者開展人工補全,其中要求研究者人數滿足Θ≥10;
要求研究者彼此獨立地從高頻標簽集合Ltop中選取與待選標簽集合Ltgt中每個待選標簽在單詞語義上近似或在軟件工程中屬于該待選標簽概念的所有高頻標簽
對于第個研究者給第k個待選標簽選取的關聯標簽集合定義為:
其中,為中關聯標簽的個數;
將所有研究者為相同待選標簽標注的關聯標簽集合求并集,得到每個待選標簽關聯的附屬標簽集;
對于第k個待選標簽的附屬標簽集sublabelsetk定義為:
其中,代表第k個待選標簽的附屬標簽,Uk代表第k個待選標簽的附屬標簽的數量;
對于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset0中的每個數據樣本構建
其中,
對于若缺陷報告si的labelseti中含有sublabelsetk中的任意一個標簽,那么否則
將構成第一輪補全后的多標簽訓練數據集即:
其中,Dataset1為第一輪補全后的多標簽訓練數據集;
步驟1所述使用二分類預測方法自動第二輪標簽補全得到第二輪補全后的多標簽訓練數據集為:
通過二分類預測算法,即Fsingle,對于分別建立R個判別模型第k個判別模型用于決策判斷輸入該模型的缺陷報告是否應當擁有待選標簽
對于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset1中的每個數據樣本構建
其中,
對于若判別模型判定缺陷報告si應當被標記為帶有第k個待選標簽那么否則
步驟1所述根據缺陷報告標題與內容單詞情況通過人工補全方法進行第三輪標簽補全得到最終多標簽訓練數據集為:
統計所有缺陷報告樣本標題與內容中出現的詞匯的詞頻,取詞頻遞減排名前H位的單詞構成高頻詞匯集合即Wtop:
其次,將高頻詞匯集合即Wtop標簽交付給Θ名研究者,其中要求研究者人數滿足Θ≥10;要求研究者彼此獨立地從高頻詞匯集合Wtop中選取與待選標簽集合Ltgt中每個待選標簽在單詞語義上近似或在軟件工程中屬于該待選標簽概念的所有高頻詞匯
對于第個研究者給第k個待選標簽選取的關聯詞匯集合定義為:
其中,為中關聯詞匯的個數;
將所有研究者認為相同待選標簽標注的關聯詞匯集合求并集,得到每個待選標簽關聯的附屬詞匯集;
對于第k個待選標簽即的附屬詞匯集定義為:
其中,代表第k個待選標簽的附屬詞匯,Vk代表第k個待選標簽的附屬詞匯的數量;
對于si=(titlei,bodyi,labelseti),i∈[1,N]和Dataset2中的每個數據樣本構建
其中,
對于若si中titlei或bodyi中含有subwordsetk中的任意一個詞匯,那么否則
將構成最終多標簽訓練數據集:
其中,Datasetok為最終多標簽訓練數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010984558.3/1.html,轉載請聲明來源鉆瓜專利網。





