[發(fā)明專利]結(jié)合軟件制品過程信息和文本相似度的制品自動(dòng)追蹤方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010431048.3 | 申請(qǐng)日: | 2020-05-20 |
| 公開(公告)號(hào): | CN111460401B | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 張?zhí)鹛?/a>;張賀;榮國(guó)平;邵棟;董黎明;葉戴林子;謝妃梅 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué) |
| 主分類號(hào): | G06F21/16 | 分類號(hào): | G06F21/16;G06F40/216;G06F18/22;G06F18/243 |
| 代理公司: | 北京華際知識(shí)產(chǎn)權(quán)代理有限公司 11676 | 代理人: | 曹書華 |
| 地址: | 210093 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)合 軟件 制品 過程 信息 文本 相似 自動(dòng) 追蹤 方法 | ||
1.一種結(jié)合軟件制品過程信息和文本相似度的制品自動(dòng)追蹤方法,其特征在于,包括以下步驟:
S1:選擇待關(guān)聯(lián)軟件制品,挖掘軟件制品間是否存在追蹤鏈接,確定軟件制品間的追蹤關(guān)系類型,所述追蹤關(guān)系類型具體分為顯式追蹤關(guān)系和隱式追蹤關(guān)系;
S2:從目標(biāo)軟件資源庫(kù)中抽取待關(guān)聯(lián)軟件制品的過程信息相關(guān)字段,包括制品狀態(tài)、文本描述信息、不同狀態(tài)下的時(shí)間、相關(guān)負(fù)責(zé)人員;
S3:計(jì)算待關(guān)聯(lián)軟件制品間的文本相似度;
S4:對(duì)于顯式追蹤關(guān)系的軟件制品,從過程信息中提取時(shí)間、人員和已關(guān)聯(lián)鏈接特征,并確定結(jié)果標(biāo)簽;
S5:對(duì)于隱式追蹤關(guān)系的軟件制品,借助過程中的中間制品作為媒介,增加人員、時(shí)間和文件特征,判定待關(guān)聯(lián)軟件制品間是否存在追蹤關(guān)系;
S6:預(yù)處理數(shù)據(jù),獲得樣本集,將樣本集分為訓(xùn)練集和測(cè)試集,訓(xùn)練二分類模型,預(yù)測(cè)軟件制品間是否存在追蹤關(guān)系;
命名待關(guān)聯(lián)的軟件制品為制品A和制品B,制品A的集合表示為Set?A={a1,a2,a3,…,an},其中ai表示具體的制品,制品B的集合表示為Set?B={b1,b2,b3,…,bn},其中bi表示具體的制品;
所述S3包含以下步驟:S3-1:制品A和制品B的文本描述信息分別被視為一個(gè)文檔,對(duì)其進(jìn)行文本預(yù)處理,預(yù)處理包括刪除不規(guī)范文本記錄和去除停用詞;
S3-2:基于VSM模型,所述VSM模型為空間向量模型,計(jì)算制品A和制品B的文本相似度,將制品A和制品B的文本描述用向量a,b表示,向量中的每個(gè)維度對(duì)應(yīng)一個(gè)詞項(xiàng)在文檔中的權(quán)重,每個(gè)詞項(xiàng)權(quán)重的計(jì)算方法為TF-IDF法,其中,向量a=(w11,w12,···,w1n),向量b=(w21,w22,···,w2n),wij為詞項(xiàng)的權(quán)重;利用余弦距離計(jì)算向量a,b之間的余弦相似度:
制品A和制品B的文本相似度可表述為sim(des(A),des(B)),des(A)和des(B)表示制品A和制品B的文本描述字段,θ為向量a,b之間的夾角;
所述S4包含以下步驟:S4-1:挖掘顯式追蹤關(guān)系制品間的時(shí)間特征,首先確定制品A和制品B的生命周期關(guān)系,一般分為周期包含、周期交叉和周期并列;對(duì)比制品A和制品B的創(chuàng)建時(shí)間和結(jié)束時(shí)間,得到時(shí)間特征;
S4-2:挖掘人員特征,挖掘制品A和制品B的相關(guān)負(fù)責(zé)人的聯(lián)系,包括同時(shí)參與制品A和制品B對(duì)應(yīng)的軟件活動(dòng)的人員;
S4-3:挖掘已鏈接記錄特征,顯式追蹤關(guān)系制品間存在已鏈接的記錄,挖掘待關(guān)聯(lián)制品和已鏈接記錄之間的關(guān)系,提取特征;
其中,待追蹤具體制品ai與具體制品bi,時(shí)間上在具體制品bi之前且與具體制品ai已鏈接的B類制品集合作為L(zhǎng)pre,Lp為集合中時(shí)間與具體制品bi相隔最近的具體制品,計(jì)算具體制品bi與Lp的文件重合度Nf=overlap(file(bi),file(Lp))、文本相似度Nt=sim(des(bi),des(Lp));
其中計(jì)算文件重合度的公式為:
overlap(file(ai),file(bi))=(file(ai)∩file(bi))/(file(ai)∪file(bi))
file(ai)為具體制品ai涉及到的文件集合,file(bi)為具體制品bi涉及到的文件集合,file(ai)∩file(bi)為兩個(gè)集合的交集,file(ai)∪file(bi)為兩個(gè)集合的并集;
待追蹤具體制品ai與具體制品bi,時(shí)間上在具體制品bi之后且與具體制品ai已鏈接的B類制品集合作為L(zhǎng)next,Ln為集合中時(shí)間與具體制品bi相隔最近的具體制品,計(jì)算具體制品bi與Ln的文件重合度Nf=overlap(file(bi),file(Ln))、文本相似度Nt=sim(des(bi),des(Ln));
S4-4:挖掘制品A和制品B之間的結(jié)果標(biāo)簽,若具體制品ai可以關(guān)聯(lián)到具體制品bi,則ai和bi之間存在追蹤關(guān)系,為正樣本,否則為負(fù)樣本;
所述S5包括以下步驟:S5-1:選取中間制品C,作為制品A和制品B的媒介制品;
S5-2:獲取制品A和制品B的時(shí)間特征、人員特征和文本特征;
S5-3:依據(jù)制品C,增加制品A和制品B間與制品C的相關(guān)特征,計(jì)算文件重合度和人員重合度;
S5-4:研究人員和項(xiàng)目參與者交叉判定制品A和制品B之間是否存在鏈接,存在則為正樣本,否則為負(fù)樣本;
所述S6包括以下步驟:S6-1:數(shù)據(jù)預(yù)處理,對(duì)獲取到的特征進(jìn)行預(yù)處理,包括異常值、缺失值、數(shù)據(jù)規(guī)范化、離散特征處理;
S6-2:選用隨機(jī)森林算法,按照訓(xùn)練集和測(cè)試集8:2的比例劃分?jǐn)?shù)據(jù),以過采樣的方法均衡訓(xùn)練集,用以訓(xùn)練模型;
S6-3:追蹤關(guān)系預(yù)測(cè),利用訓(xùn)練的模型預(yù)測(cè)待關(guān)聯(lián)的鏈接。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010431048.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 一種基于應(yīng)用軟件散布的軟件授權(quán)與保護(hù)方法及系統(tǒng)
- 一種用于航空機(jī)載設(shè)備的軟件在線加載系統(tǒng)及方法
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 惡意軟件檢測(cè)方法及裝置
- 一種基于軟件基因的軟件同源性分析方法和裝置
- 軟件引入系統(tǒng)、軟件引入方法及存儲(chǔ)介質(zhì)
- 軟件驗(yàn)證裝置、軟件驗(yàn)證方法以及軟件驗(yàn)證程序
- 使用靜態(tài)和動(dòng)態(tài)惡意軟件分析來擴(kuò)展惡意軟件的動(dòng)態(tài)檢測(cè)
- 一種工業(yè)控制軟件構(gòu)建方法和軟件構(gòu)建系統(tǒng)
- 可替換游戲軟件與測(cè)驗(yàn)軟件的裝置與方法





