[發明專利]多時間序列的樣本特征提取方法以應用其的軟件檢測方法有效
| 申請號: | 202110871552.X | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113568836B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 翟欣虎;秦益飛;楊正權 | 申請(專利權)人: | 江蘇易安聯網絡技術有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州匯和信專利代理有限公司 33475 | 代理人: | 吳琰 |
| 地址: | 210000 江蘇省南京市江寧區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多時 序列 樣本 特征 提取 方法 應用 軟件 檢測 | ||
1.一種多時間序列的樣本特征提取方法,其特征在于,包括以下步驟:
運行軟件樣本,獲取軟件樣本在操作系統中調用指令生成的多條指令調用記錄;
根據所屬線程對每條指令調用記錄分組,對分組內所有指令調用記錄按照調用順序正序排列,并提取每組前連續多條指令調用記錄生成指令序列;
計算每一線程調用的指令序列的特征值總和,按照特征值總和的大小正序排列,得到多個指令序列間的絕對順序,提取每組前連續多列指令序列且合并生成特征矩陣;
獲取待分類軟件,將待分類軟件輸入已訓練的預測模型中,其中對特征矩陣中的每列指令序列進行詞嵌入運算,將詞嵌入運算后的特征矩陣作為循環神經網絡的輸入,得到已訓練的預測模型輸出的軟件分類標簽;
其中所述預測模型的訓練方法包括:
獲取多個特征矩陣以構造訓練數據集,其中,每個特征矩陣以線程編號為列,以指令編號為行,指令編號由用數值化后的指令名稱表示;根據訓練數據集對預測模型進行訓練,得到已訓練的預測模型,其中,預測模型包括卷積神經網絡或全連接層的其中一種以及多個循環神經網絡,將每個特征矩陣作為循環神經網絡的輸入,將軟件分類標簽作為卷積神經網絡或者全連接層的輸出,訓練預測網絡。
2.根據權利要求1所述的多時間序列的樣本特征提取方法,其特征在于,“獲取軟件樣本在操作系統中調用指令生成的多條指令調用記錄”包括:
將軟件樣本在虛擬終端上運行,捕獲預設時段內軟件樣本對虛擬終端上的操作系統指令調用的調用列表,其中,每一軟件樣本運行時對應生成一調用列表,調用列表中包括多條指令調用記錄。
3.根據權利要求2所述的多時間序列的樣本特征提取方法,其特征在于,調用列表中每一指令調用記錄包括以下屬性:軟件名、軟件分類標簽、指令名稱,指令所屬線程編號,調用順序,基于指令所屬線程編號確定指令所屬線程。
4.根據權利要求1所述的多時間序列的樣本特征提取方法,其特征在于,包括:
設定每列指令序列的目標指令數;
在每個分組內的指令調用記錄的個數小于目標記錄的情況下,采用隨機字符串補齊分組記錄,否則,丟棄分組內目標指令數以外的指令調用記錄;
生成指令序列,將指令序列中的每行指令調用記錄的指令名稱數值化。
5.根據權利要求4所述的多時間序列的樣本特征提取方法,其特征在于,包括:
設定目標線程數;在分組的個數小于目標線程數的情況下,采用隨機數值補齊分組個數,否則,丟棄目標線程數以外的分組。
6.一種多時間序列的樣本特征提取裝置,其特征在于,包括:
軟件運行模塊,用于運行軟件樣本,獲取軟件樣本在操作系統中調用指令生成的多條指令調用記錄;
序列生成模塊,用于根據所屬線程對每條指令調用記錄分組,對分組內所有指令調用記錄按照調用順序正序排列,并提取每組前連續多條指令調用記錄生成指令序列;
計算模塊,用于計算每一線程調用的指令序列的特征值總和,按照特征值總和的大小正序排列,得到多個指令序列間的絕對順序,提取每組前連續多列指令序列且合并生成特征矩陣;
獲取待分類軟件,將待分類軟件輸入已訓練的預測模型中,其中對特征矩陣中的每列指令序列進行詞嵌入運算,將詞嵌入運算后的特征矩陣作為循環神經網絡的輸入,得到已訓練的預測模型輸出的軟件分類標簽;
其中所述預測模型的訓練方法包括:
獲取多個特征矩陣以構造訓練數據集,其中,每個特征矩陣以線程編號為列,以指令編號為行,指令編號由用數值化后的指令名稱表示;根據訓練數據集對預測模型進行訓練,得到已訓練的預測模型,其中,預測模型包括卷積神經網絡或全連接層的其中一種以及多個循環神經網絡,將每個特征矩陣作為循環神經網絡的輸入,將軟件分類標簽作為卷積神經網絡或者全連接層的輸出,訓練預測網絡。
7.一種計算機可讀存儲介質,其特征在于,包括軟件代碼部分,當所述計算機可讀存儲介質在計算機上被運行時,所述代碼軟件部分用于執行根據權利要求1-5任一項所述的多時間序列的樣本特征提取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇易安聯網絡技術有限公司,未經江蘇易安聯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110871552.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據管理方法、裝置和存儲設備
- 下一篇:一種高質本色低克重紙的生產系統





