[發(fā)明專利]開源社區(qū)中開發(fā)者行為的異常檢測方法、系統(tǒng)及介質有效
| 申請?zhí)枺?/td> | 202010124140.5 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111459797B | 公開(公告)日: | 2023-04-28 |
| 發(fā)明(設計)人: | 曹健;童蘭軒;錢詩友 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 社區(qū) 開發(fā)者 行為 異常 檢測 方法 系統(tǒng) 介質 | ||
1.一種開源社區(qū)中開發(fā)者行為的異常檢測方法,其特征在于,包括:
構建序列步驟:根據(jù)開發(fā)者行為構建不同的行為次數(shù)時間序列;
行為數(shù)據(jù)離散化步驟:對行為次數(shù)時間序列進行劃分成區(qū)間內差異低于預設范圍,區(qū)間之間差異高于預設范圍的不同類別,并達到預設類別數(shù)量;
行為頻繁序列挖掘步驟:在其他人員的行為序列和待檢測者的歷史行為序列上均進行行為頻繁序列挖掘;
行為異常性判斷步驟:判斷開發(fā)者的行為是否存在異常;
所述行為頻繁序列挖掘步驟包括:
步驟B1:尋找置信度為s下的m項頻繁項或長度為m的頻繁序列;
步驟B2:若頻繁集為空集,則縮短項數(shù)或序列長度到m-1,引入在置信度上的懲罰項,返回在置信度為2s下的m-1項頻繁項或長度為m-1的頻繁序列;
步驟B3:返回步驟B2繼續(xù)執(zhí)行,若得到置信度為(1+i)s的m-i項頻繁項或長度為m-i的頻繁序列時終止;
步驟B4:若到i=m時,都沒有得到頻繁集,則在置信度為s下,m項頻繁項或長度為m的頻繁序列為空集。
2.根據(jù)權利要求1所述的開源社區(qū)中開發(fā)者行為的異常檢測方法,其特征在于,所述行為次數(shù)時間序列包括:
次數(shù)序列:由一段時間內的行為總數(shù)量表示,所有類型的行為次數(shù)序列記為X,某類型的行為j的次數(shù)序列記為Cj;
趨勢序列:由相鄰兩端時間內的行為總數(shù)變化量表示,所有類型的行為趨勢序列記為X’,行為j的趨勢序列記為Cj’;
比例序列:由一段時間內某一行為的次數(shù)占這段時間內行為總數(shù)的占比表示,行為j的比例序列記為Pj。
3.根據(jù)權利要求1所述的開源社區(qū)中開發(fā)者行為的異常檢測方法,其特征在于,所述行為數(shù)據(jù)離散化步驟包括:
步驟A1:將每一個不同值的數(shù)據(jù)放入一個類別;
步驟A2:找到一組差異最小的相鄰類別,將這兩個類別合并;
步驟A3:返回步驟2繼續(xù)執(zhí)行,當數(shù)據(jù)分成預設類別數(shù)量時終止。
4.根據(jù)權利要求1所述的開源社區(qū)中開發(fā)者行為的異常檢測方法,其特征在于,對于相同長度的序列或項,采用閔氏距離計算方法,對于不同長度的序列,進行基于最長公共子序列的序列長度調整,再采用閔氏距離計算。
5.根據(jù)權利要求1所述的開源社區(qū)中開發(fā)者行為的異常檢測方法,其特征在于,所述行為異常性判斷步驟包括:
對于想要檢測的開發(fā)者的行為,對當前行為子序列,與歷史序列中的頻繁序列、與其他開發(fā)者的頻繁行為序列進行距離計算,若高于預設異常閾值,則判定為疑似異常。
6.根據(jù)權利要求1所述的開源社區(qū)中開發(fā)者行為的異常檢測方法,其特征在于,所述開發(fā)者行為包括代碼提交,代碼審查和發(fā)表評論。
7.一種開源社區(qū)中開發(fā)者行為的異常檢測系統(tǒng),其特征在于,包括:
構建序列模塊:根據(jù)開發(fā)者行為構建不同的行為次數(shù)時間序列;
行為數(shù)據(jù)離散化模塊:對行為次數(shù)時間序列進行劃分成區(qū)間內差異低于預設范圍,區(qū)間之間差異高于預設范圍的不同類別,并達到預設類別數(shù)量;
行為頻繁序列挖掘模塊:在其他人員的行為序列和待檢測者的歷史行為序列上均進行行為頻繁序列挖掘;
行為異常性判斷模塊:判斷開發(fā)者的行為是否存在異常;
行為頻繁序列挖掘包括:
步驟B1:尋找置信度為s下的m項頻繁項或長度為m的頻繁序列;
步驟B2:若頻繁集為空集,則縮短項數(shù)或序列長度到m-1,引入在置信度上的懲罰項,返回在置信度為2s下的m-1項頻繁項或長度為m-1的頻繁序列;
步驟B3:返回步驟B2繼續(xù)執(zhí)行,若得到置信度為(1+i)s的m-i項頻繁項或長度為m-i的頻繁序列時終止;
步驟B4:若到i=m時,都沒有得到頻繁集,則在置信度為s下,m項頻繁項或長度為m的頻繁序列為空集。
8.一種存儲有計算機程序的計算機可讀存儲介質,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至6中任一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010124140.5/1.html,轉載請聲明來源鉆瓜專利網。





