[發明專利]惡意文檔檢測模型的主動學習方法、電子設備及存儲介質有效
| 申請號: | 202110578295.0 | 申請日: | 2021-05-26 |
| 公開(公告)號: | CN113190851B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 黃娜 | 申請(專利權)人: | 北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06N20/00;G06F18/23 |
| 代理公司: | 北京金信知識產權代理有限公司 11225 | 代理人: | 侯憲志;韓岳松 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 惡意 文檔 檢測 模型 主動 學習方法 電子設備 存儲 介質 | ||
1.一種惡意文檔檢測模型的主動學習方法,其特征在于,包括:
獲取包含多個未標注的樣本的樣本集,并確定所述樣本的差異性、不確定度和估計風險,其中,所述差異性表征所述樣本與所述樣本集中所述樣本的差異程度,所述不確定度表征所述樣本的信息量的豐富程度,所述估計風險表征誤導惡意文檔檢測模型的風險的高低程度;
基于所述差異性、所述不確定度和所述估計風險對所述樣本的訓練價值進行評估;
選取訓練價值符合預設條件的所述樣本構建訓練集,通過所述訓練集對所述惡意文檔檢測模型進行訓練,并更新所述惡意文檔檢測模型;
其中,所述確定所述樣本的差異性,包括:
通過聚類算法對所述樣本集中的所述樣本進行聚類處理,以獲取一個或多個樣本簇,每個所述樣本簇包括多個所述樣本;
確定所述樣本與所述樣本簇的質心的向量距離,以及所述樣本簇的平均質心距離;
基于所述向量距離和所述平均質心距離的比值,確定所述樣本的所述差異性;
其中,所述確定所述樣本的估計風險,包括:
通過所述惡意文檔檢測模型為所述樣本簇中的所述樣本添加第一標簽;其中,所述第一標簽用于標識所述樣本屬于惡意文檔或非惡意文檔;
基于所述樣本的第一標簽與所述樣本簇中樣本的第一標簽的差異程度,確定所述估計風險;
其中,通過如下公式確定所述樣本的估計風險:
其中,S表示所述估計風險;表示所確定的所述樣本的第一標簽的取值,表示所述樣本簇中第i個樣本的第一標簽的取值,其中,,當第一標簽標識樣本屬于惡意文檔時,或取0,當第一標簽標識樣本屬于非惡意文檔時,或取1;
其中,所述確定所述樣本的不確定度,包括:
通過所述惡意文檔檢測模型確定所述樣本屬于惡意文檔的第一概率和屬于非惡意文檔的第二概率;
基于所述第一概率和所述第二概率的差異程度,確定所述不確定度,其中,所述不確定度與所述第一概率和所述第二概率的差異程度的絕對值成反比。
2.根據權利要求1所述的方法,其特征在于,通過如下公式確定所述樣本的差異性:
其中,?R表示所述差異性;d(x,y)為計算x和y兩點之間向量距離的函數;表示所確定的樣本的向量坐標;表示所述樣本簇中第i個樣本的向量坐標;n表示所述樣本簇中樣本的數量;C表示所述樣本簇的質心的向量坐標。
3.根據權利要求1所述的方法,其特征在于,所述基于所述差異性、所述不確定度和所述估計風險對所述樣本的訓練價值進行評估,包括:
將所述差異性、所述不確定度和所述估計風險輸入采樣器,通過所述采樣器對所述樣本的訓練價值進行評估,其中,所述采樣器為機器學習模型。
4.根據權利要求1所述的方法,其特征在于,所述選取訓練價值符合預設條件的所述樣本構建訓練集,包括:
向訓練價值符合預設條件的所述樣本添加第二標簽;其中,所述第二標簽用于標識所述樣本屬于惡意文檔或非惡意文檔;
基于添加有所述第二標簽的所述樣本構建所述訓練集。
5.一種電子設備,至少包括存儲器和處理器,所述存儲器上存儲有程序,其特征在于,所述處理器在執行所述存儲器上的程序時實現權利要求1-4任一項所述的方法。
6.一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機可執行指令,其特征在于,在執行所述計算機可讀存儲介質中的所述計算機可執行指令時實現權利要求1-4任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司,未經北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110578295.0/1.html,轉載請聲明來源鉆瓜專利網。





