[發(fā)明專利]一種樣本識別模型訓(xùn)練方法、惡意樣本提取方法及裝置有效
| 申請?zhí)枺?/td> | 202010419722.6 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111343203B | 公開(公告)日: | 2020-08-28 |
| 發(fā)明(設(shè)計)人: | 王棟;趙丙鎮(zhèn);楊珂;玄佳興;龔政;郭寶賢;許天興 | 申請(專利權(quán))人: | 國網(wǎng)電子商務(wù)有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 劉曉菲 |
| 地址: | 100053 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 樣本 識別 模型 訓(xùn)練 方法 惡意 提取 裝置 | ||
本申請實施例公開了一種樣本識別模型訓(xùn)練方法、惡意樣本提取方法及裝置,包括:獲取訓(xùn)練文本數(shù)據(jù);根據(jù)所述訓(xùn)練文本數(shù)據(jù)中的惡意樣本標(biāo)簽對第一詞匯進行惡意樣本標(biāo)注的標(biāo)記與詞邊界標(biāo)注的標(biāo)記;依次選取所述訓(xùn)練文本數(shù)據(jù)中包含的語句作為目標(biāo)訓(xùn)練語句;根據(jù)第二詞匯,得到第二詞匯對應(yīng)的詞向量和字符向量;將所述詞向量和所述字符向量進行拼接,得到所述第二詞匯的序列表示向量,進而得到所述目標(biāo)訓(xùn)練語句的序列表示向量;將所述目標(biāo)訓(xùn)練語句的序列表示向量、所述詞邊界標(biāo)注和所述惡意樣本標(biāo)注作為訓(xùn)練數(shù)據(jù),通過所述訓(xùn)練數(shù)據(jù)訓(xùn)練得到樣本識別模型,使得樣本識別模型可以較為全面地、準(zhǔn)確地檢測惡意樣本。
技術(shù)領(lǐng)域
本申請涉及人工智能技術(shù)領(lǐng)域,具體涉及一種樣本識別模型訓(xùn)練方法、惡意樣本提取方法及裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)安全受到越來越多的關(guān)注。在現(xiàn)有的網(wǎng)絡(luò)環(huán)境中,存在著眾多的威脅網(wǎng)絡(luò)安全的因素。其中,對于網(wǎng)絡(luò)中描述現(xiàn)存的、或者是即將出現(xiàn)針對資產(chǎn)的威脅或危險的相關(guān)信息可以稱為威脅情報,威脅情報中則存在大量對于惡意樣本的描述,這些惡意樣本有助于網(wǎng)絡(luò)安全工程師分析網(wǎng)絡(luò)中可能發(fā)生的定向攻擊或APT(AdvancedPersistent Threat,高級持續(xù)威脅)攻擊。較早地檢測以及發(fā)現(xiàn)惡意樣本可以有效地分析出當(dāng)前網(wǎng)絡(luò)存在的安全問題及可能發(fā)生的攻擊事件,以此做出相應(yīng)的防御措施與安全決策。在大數(shù)據(jù)環(huán)境下,對于惡意樣本的檢測,可以從已收集的威脅情報中提取關(guān)于惡意樣本的關(guān)鍵詞匯,通過模型訓(xùn)練可以自動從相關(guān)網(wǎng)絡(luò)的文本中獲取這些關(guān)鍵詞匯,即實現(xiàn)模型自動檢測惡意樣本,可以及時、準(zhǔn)確地發(fā)現(xiàn)網(wǎng)絡(luò)攻擊和威脅情報。但是,現(xiàn)有的惡意樣本的提取技術(shù)中存在惡意樣本類型少、準(zhǔn)確率不高的問題,不能全面地、準(zhǔn)確地檢測惡意樣本。
發(fā)明內(nèi)容
有鑒于此,本申請實施例提供一種樣本識別模型訓(xùn)練方法、惡意樣本提取方法及裝置,能夠?qū)崿F(xiàn)較為準(zhǔn)確的對惡意樣本進行提取。
本申請實施例提供的技術(shù)方案如下:
第一方面,本申請?zhí)峁┮环N樣本識別模型訓(xùn)練方法,所述方法包括:
獲取訓(xùn)練文本數(shù)據(jù);
根據(jù)所述訓(xùn)練文本數(shù)據(jù)中的惡意樣本標(biāo)簽對第一詞匯進行惡意樣本標(biāo)注的標(biāo)記與詞邊界標(biāo)注的標(biāo)記;所述第一詞匯為所述訓(xùn)練文本數(shù)據(jù)中的詞匯;所述惡意樣本標(biāo)簽是預(yù)先定義的;
其中,所述根據(jù)所述訓(xùn)練文本數(shù)據(jù)中的惡意樣本標(biāo)簽對第一詞匯進行惡意樣本標(biāo)注的標(biāo)記與詞邊界標(biāo)注的標(biāo)記,包括:
若所述第一詞匯具有所述惡意樣本標(biāo)簽,則標(biāo)記惡意樣本標(biāo)注;
若所述第一詞匯不具有所述惡意樣本標(biāo)簽,則標(biāo)記第一詞邊界標(biāo)注;
若所述第一詞匯具有所述惡意樣本標(biāo)簽,則按照所述第一詞匯在惡意樣本中的順序,標(biāo)記第二詞邊界標(biāo)注;
依次選取所述訓(xùn)練文本數(shù)據(jù)中包含的語句作為目標(biāo)訓(xùn)練語句;根據(jù)第二詞匯,得到所述第二詞匯對應(yīng)的詞向量;根據(jù)所述第二詞匯中的字符得到所述第二詞匯對應(yīng)的字符向量;所述第二詞匯為所述目標(biāo)訓(xùn)練語句中的詞匯;
將所述詞向量和所述字符向量進行拼接,得到所述第二詞匯的序列表示向量,將所述第二詞匯的序列表示向量組合,得到所述目標(biāo)訓(xùn)練語句的序列表示向量;
將所述目標(biāo)訓(xùn)練語句的序列表示向量、所述詞邊界標(biāo)注和所述惡意樣本標(biāo)注作為訓(xùn)練數(shù)據(jù),通過所述訓(xùn)練數(shù)據(jù)訓(xùn)練得到樣本識別模型;所述樣本識別模型用于識別詞匯是否屬于惡意樣本;所述樣本識別模型由雙向長短期記憶網(wǎng)絡(luò)層以及條件隨機場層組成。
可選的,所述樣本識別模型由雙向長短期記憶網(wǎng)絡(luò)層、注意力機制層以及條件隨機場層組成。
可選的,所述方法還包括:將由所述第一詞邊界標(biāo)記的詞匯組成的目標(biāo)訓(xùn)練語句進行刪除,得到更新后的訓(xùn)練文本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)電子商務(wù)有限公司,未經(jīng)國網(wǎng)電子商務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010419722.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





