[發(fā)明專利]多時間序列的樣本特征提取方法以應(yīng)用其的軟件檢測方法有效
| 申請?zhí)枺?/td> | 202110871552.X | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113568836B | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設(shè)計)人: | 翟欣虎;秦益飛;楊正權(quán) | 申請(專利權(quán))人: | 江蘇易安聯(lián)網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州匯和信專利代理有限公司 33475 | 代理人: | 吳琰 |
| 地址: | 210000 江蘇省南京市江寧區(qū)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多時 序列 樣本 特征 提取 方法 應(yīng)用 軟件 檢測 | ||
本申請?zhí)岢隽艘环N多時間序列的樣本特征提取方法以應(yīng)用其的軟件檢測方法,其中,樣本特征提取方法包括以下步驟:運行軟件樣本,獲取軟件樣本在操作系統(tǒng)中調(diào)用指令生成的多條指令調(diào)用記錄;根據(jù)所屬線程對每條指令調(diào)用記錄分組,對分組內(nèi)所有指令調(diào)用記錄按照調(diào)用順序正序排列,并提取每組前連續(xù)多條指令調(diào)用記錄生成指令序列;計算每一線程調(diào)用的指令序列的特征值總和,按照特征值總和的大小正序排列,提取每組前連續(xù)多列指令序列且合并生成特征矩陣。通過本發(fā)明,確保同一軟件樣本在訓(xùn)練時的傳入時間序列順序與檢測時的傳入時間序列一致,從而提高檢測結(jié)果的可靠性。
技術(shù)領(lǐng)域
本申請涉及模式識別領(lǐng)域,特別是涉及多時間序列的樣本特征提取方法以應(yīng)用其的軟件檢測方法。
背景技術(shù)
在模式識別領(lǐng)域,對機器的行為進行記錄分析并根據(jù)分析結(jié)果將其分類是一種常見的需求,所謂機器行為通常指計算機軟件運行后產(chǎn)生的一系列對操作系統(tǒng)指令的調(diào)用。
在各類分析方法中,通過神經(jīng)網(wǎng)絡(luò)對機器產(chǎn)生的行為樣本進行訓(xùn)練生成模型,使用模型預(yù)測產(chǎn)生該行為的機器的類型是目前主流的做法。在各種神經(jīng)網(wǎng)絡(luò)中最常用的兩種分別是循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),其中循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理和時間維度無關(guān)的樣本,卷積神經(jīng)網(wǎng)絡(luò)更適合處理和時間維度相關(guān)的樣本。
在對機器行為特征的提取中,基于時間維度的采樣提取其特征是重要的一個環(huán)節(jié),早期通常認(rèn)為機器產(chǎn)生的行為都是順序執(zhí)行的,即同一個機器產(chǎn)生的多個行為之間有嚴(yán)格的時間現(xiàn)后順序,即使軟件支持多線程執(zhí)行也被認(rèn)為不存在真正的并行而被當(dāng)成單線程處理。但隨著多CPU以及多核CPU的流行,機器產(chǎn)生的行為已經(jīng)存在真正的并發(fā)及并行,也就是同一臺機器會出現(xiàn)真正的多個行為同時運作的情況。
處理訓(xùn)練具有時間相關(guān)性的樣本最合適的是卷積神經(jīng)網(wǎng)絡(luò),但卷積神經(jīng)網(wǎng)絡(luò)在設(shè)計之初并沒有考慮處理存在多個時間線的樣本,即用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的樣本如果存在多條時間線,那訓(xùn)練后模型預(yù)測的準(zhǔn)確性必然會下降。
而現(xiàn)在大多數(shù)機器產(chǎn)生的行為都是并發(fā)或并行的,例如一個軟件運行后可以有數(shù)個線程同時運行,每個線程產(chǎn)生數(shù)十次或數(shù)百次不同的指令調(diào)用,同一線程上執(zhí)行的指令有嚴(yán)格的時間現(xiàn)后順序,但不同線程間的指令并沒有時間現(xiàn)后順序,意味著對于同一個軟件每次執(zhí)行后各個線程間的指令集執(zhí)行順序是隨機的,這種情況下單純采用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型是不合適的。
通常處理這種情況的方法是,根據(jù)一定的規(guī)則將多條時間序列的指令串行拼接后再傳入卷積神經(jīng)網(wǎng)絡(luò),例如按每條時間序列上指令的數(shù)量倒序排列,這樣就將多條時間序列拼接成了一條序列,可以適用于卷積神經(jīng)網(wǎng)絡(luò)處理。
還有一種做法是,將每條時間序列均分配一條卷積神經(jīng)網(wǎng)絡(luò)來處理,處理后的結(jié)果傳入全連接密度層或循環(huán)神經(jīng)網(wǎng)絡(luò)再進行融合處理。
針對上述第一種按規(guī)則拼接多條時間序列的方法存在問題在于,大多數(shù)軟件運行后執(zhí)行指令的數(shù)量會非常龐大,例如單線程指令次數(shù)會數(shù)以萬計,針對這種情況的慣用做法是將指令序列截斷只取前N個指令參與訓(xùn)練,這種做法會使多條時間序列長度變的相同從而無法按指令數(shù)量大小排序,那么多條時間序列的順序無法按固定,這種情況下訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型的精度會大幅下降。
針對上述第二種用多個卷積神經(jīng)網(wǎng)絡(luò)來處理多條時間序列的方法,同樣存在著在卷積神經(jīng)網(wǎng)絡(luò)處理后融合時順序無法確定的情況,那么當(dāng)使用模型時如果傳入的待檢測樣本中時間序列的順序和訓(xùn)練時傳入的順序不一致,那么預(yù)測結(jié)果顯然是不可信的。
綜上,針對目前無論是上述哪種方式在處理多條時間序列樣本時都無法保證其固定順序,導(dǎo)致訓(xùn)練樣本的順序與檢測時的順序不一致,降低預(yù)測結(jié)果的可信度的問題,目前尚未得到有效的解決方案。
發(fā)明內(nèi)容
本申請實施例提供了一種多時間序列的樣本特征提取方法以應(yīng)用其的軟件檢測方法,能夠解決目前多條時間序列傳入順序不一致的問題,確保同一軟件樣本在訓(xùn)練時的傳入時間序列順序與檢測時的傳入時間序列一致,從而提高檢測結(jié)果的可靠性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇易安聯(lián)網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)江蘇易安聯(lián)網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110871552.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





