[發明專利]惡意文檔檢測模型的主動學習方法、電子設備及存儲介質有效
| 申請號: | 202110578295.0 | 申請日: | 2021-05-26 |
| 公開(公告)號: | CN113190851B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 黃娜 | 申請(專利權)人: | 北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06N20/00;G06F18/23 |
| 代理公司: | 北京金信知識產權代理有限公司 11225 | 代理人: | 侯憲志;韓岳松 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 惡意 文檔 檢測 模型 主動 學習方法 電子設備 存儲 介質 | ||
本申請公開了一種惡意文檔檢測模型的主動學習方法、電子設備及存儲介質,該方法包括:獲取包含多個未標注的樣本的樣本集,并確定所述樣本的差異性、不確定度和估計風險;基于所述差異性、所述不確定度和所述估計風險對所述樣本的訓練價值進行評估;選取訓練價值符合預設條件的所述樣本構建訓練集,通過所述訓練集對所述惡意文檔檢測模型進行訓練,并更新所述惡意文檔檢測模型。該方法能夠選取出訓練價值較高的樣本對惡意文檔檢測模型進行訓練,不僅能夠過濾掉冗余樣本,減少標記工作,且能夠排出干擾信息,有助于提高惡意文檔檢測模型的準確性。
技術領域
本申請涉及惡意文檔檢測技術領域,特別涉及一種惡意文檔檢測模型的主動學習方法、電子設備及計算機可讀存儲介質。
背景技術
文檔通常具有跨平臺的特性,是藏匿和傳播惡意代碼的重要媒介,由此引起的安全事件不勝枚舉。早期,基于簽名匹配的檢測方法被廣泛用于防范惡意文檔,也有動態、靜態以及混合態的啟發式檢測等方法。為了實現惡意文檔的智能化檢測,機器學習技術在該領域逐漸得到應用。
在大數據時代,惡意軟件、惡意文檔的數量也呈現高速增長的趨勢。若使用被動學習方法訓練、維護檢測模型,樣本標記的工作將十分耗時耗力,而且樣本冗余度往往較高,主動學習是解決這一問題的有效途徑主動學習的核心在于使模型主動選擇高價值的樣本進行增量學習,能夠顯著降低樣本標記的工作量。但常規的主動學習方法存在選取的樣本質量較差,進而導致在提升檢測模型性能方面的作用有限。
發明內容
有鑒于現有技術中存在的上述問題,本申請提供了一種惡意文檔檢測模型的主動學習方法、電子設備及計算機可讀存儲介質,本申請實施例采用的技術方案如下:
一種惡意文檔檢測模型的主動學習方法,包括:
獲取包含多個未標注的樣本的樣本集,并確定所述樣本的差異性、不確定度和估計風險,其中,所述差異性表征所述樣本與所述樣本集中所述樣本的差異程度,所述不確定度表征所述樣本的信息量的豐富程度,所述估計風險表征誤導惡意文檔檢測模型的風險的高低程度;
基于所述差異性、所述不確定度和所述估計風險對所述樣本的訓練價值進行評估;
選取訓練價值符合預設條件的所述樣本構建訓練集,通過所述訓練集對所述惡意文檔檢測模型進行訓練,并更新所述惡意文檔檢測模型。
在一些實施例中,所述確定所述樣本的差異性,包括:
通過聚類算法對所述樣本集中的所述樣本進行聚類處理,以獲取一個或多個樣本簇,每個所述樣本簇包括多個所述樣本;
確定所述樣本與所述樣本簇的質心的向量距離,以及所述樣本簇的平均質心距離;
基于所述向量距離和所述平均質心距離的比值,確定所述樣本的所述差異性。
在一些實施例中,通過如下公式確定所述樣本的差異性:
其中,R表示所述差異性;d(x,y)為計算x和y兩點之間向量距離的函數;sunk表示所確定的樣本的向量坐標;si表示所述樣本簇中第i個樣本的向量坐標;n表示所述樣本簇中樣本的數量;C表示所述樣本簇的質心的向量坐標。
在一些實施例中,所述確定所述樣本的估計風險,包括:
通過所述惡意文檔檢測模型為所述樣本簇中的所述樣本添加第一標簽;其中,所述第一標簽用于標識所述樣本屬于惡意文檔或非惡意文檔;
基于所述樣本的第一標簽與所述樣本簇中樣本的第一標簽的差異程度,確定所述估計風險。
在一些實施例中,通過如下公式確定所述樣本的估計風險:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司,未經北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110578295.0/2.html,轉載請聲明來源鉆瓜專利網。





