[發明專利]一種樣本識別模型訓練方法、惡意樣本提取方法及裝置有效
| 申請號: | 202010419722.6 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111343203B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 王棟;趙丙鎮;楊珂;玄佳興;龔政;郭寶賢;許天興 | 申請(專利權)人: | 國網電子商務有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉曉菲 |
| 地址: | 100053 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 識別 模型 訓練 方法 惡意 提取 裝置 | ||
1.一種樣本識別模型訓練方法,其特征在于,所述方法包括:
獲取訓練文本數據;
根據所述訓練文本數據中的惡意樣本標簽對第一詞匯進行惡意樣本標注的標記與詞邊界標注的標記;所述第一詞匯為所述訓練文本數據中的詞匯;所述惡意樣本標簽是預先定義的;所述惡意樣本標簽包括黑客組織名稱、惡意MD5值、惡意SHA1值、惡意SHA256值、URL樣本、IP樣本、漏洞ID、漏洞名稱、惡意軟件ID和惡意軟件名稱中的一種或者多種;
其中,所述根據所述訓練文本數據中的惡意樣本標簽對第一詞匯進行惡意樣本標注的標記與詞邊界標注的標記,包括:
若所述第一詞匯具有所述惡意樣本標簽,則標記所述惡意樣本標注;
若所述第一詞匯不具有所述惡意樣本標簽,則標記第一詞邊界標注;
若所述第一詞匯具有所述惡意樣本標簽,則按照所述第一詞匯在惡意樣本中的順序,標記第二詞邊界標注;
將由所述第一詞邊界標注標記的詞匯組成的目標訓練語句進行刪除,得到更新后的訓練文本數據;依次選取所述訓練文本數據中包含的語句作為目標訓練語句;根據第二詞匯,得到所述第二詞匯對應的詞向量;根據所述第二詞匯中的字符得到所述第二詞匯對應的字符向量;所述第二詞匯為所述目標訓練語句中的詞匯;
將所述詞向量和所述字符向量進行拼接,得到所述第二詞匯的序列表示向量,將所述第二詞匯的序列表示向量組合,得到所述目標訓練語句的序列表示向量;
將所述目標訓練語句的序列表示向量、所述詞邊界標注和所述惡意樣本標注作為訓練數據,通過所述訓練數據訓練得到樣本識別模型;所述樣本識別模型用于識別詞匯是否屬于惡意樣本;所述樣本識別模型由雙向長短期記憶網絡層、注意力機制層以及條件隨機場層組成。
2.根據權利要求1所述的方法,其特征在于,所述根據第二詞匯,得到所述第二詞匯對應的詞向量,包括:
將第二詞匯輸入GLoVe模型中,得到所述第二詞匯對應的詞向量;
所述根據所述第二詞匯中的字符得到所述第二詞匯對應的字符向量,包括:
將所述第二詞匯中的字符輸入至卷積神經網絡模型中,得到所述第二詞匯對應的字符向量。
3.一種惡意樣本提取方法,其特征在于,所述方法包括:
獲取待識別文本數據;
依次選取所述待識別文本數據中包含的語句作為目標語句;根據第三詞匯,得到所述第三詞匯對應的詞向量;根據所述第三詞匯中的字符得到所述第三詞匯對應的字符向量;所述第三詞匯為所述目標語句中的詞匯;
將所述詞向量和所述字符向量進行拼接,得到所述第三詞匯的序列表示向量,將所述第三詞匯的序列表示向量組合,得到所述目標語句的序列表示向量;
將所述目標語句的序列表示向量輸入到樣本識別模型中,得到識別結果,所述識別結果包括詞邊界標注識別結果和惡意樣本標注識別結果;所述樣本識別模型為根據權利要求1-2任一項所述的樣本識別模型的訓練方法訓練得到的,用于識別所述待識別文本數據中的詞匯是否屬于惡意樣本;
根據所述識別結果,判斷所述第三詞匯是否屬于所述惡意樣本,將屬于所述惡意樣本的第三詞匯進行提取。
4.根據權利要求3所述的方法,其特征在于,所述根據所述識別結果,判斷所述第三詞匯是否屬于所述惡意樣本,包括:
根據所述識別結果中的惡意樣本標注識別結果,通過判斷所述第三詞匯是否具有惡意樣本標注,判斷所述第三詞匯是否屬于所述惡意樣本;若所述第三詞匯具有惡意樣本標注,則所述第三詞匯屬于所述惡意樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網電子商務有限公司,未經國網電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010419722.6/1.html,轉載請聲明來源鉆瓜專利網。





