[發明專利]基于生成對抗網絡和深度學習的有害網站的檢測方法有效
| 申請號: | 202110830095.X | 申請日: | 2021-07-22 |
| 公開(公告)號: | CN113657453B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 劉立峰;李麗;董華;馮志峰;鮑尚策 | 申請(專利權)人: | 珠海高凌信息科技股份有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06N3/0464;G06F21/56;G06F16/9535 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 張志輝 |
| 地址: | 519060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 深度 學習 有害 網站 檢測 方法 | ||
本發明涉及一種基于生成對抗網絡和深度學習的有害網站的檢測方法、裝置及可讀介質的技術方案,包括:通過爬蟲獲取若干包括有害網址的第一網站快照;將第一網站快照作為生成對抗網絡的數據輸入,得到多個模擬網站快照;將模擬網站快照與若干正常網站的第二網站快照進行組合,得到訓練集;微調用于訓練的卷積神經網絡,將訓練集通過卷積神經網絡進行訓練,得到用于有害網站的檢測模型。本發明的有益效果為:所需的有標簽的數據量大大減少,訓練所需要的時間和計算資源也大大減少,且面對新的個性化小樣本任務,本技術中提出的模型有更好的適應性,能在短時間內生成可靠的深度學習模型,提高了系統的實用價值。
技術領域
本發明涉及計算機安全領域,具體涉及了一種基于生成對抗網絡和深度學習的有害網站的檢測方法、裝置及介質。
背景技術
隨著我國互聯網技術的不斷發展,目前廣泛采用的針對互聯網有害信息挖掘,通常需要結合通信網海量的控制面和用戶面的上網日志數據進行分析判斷,隨著國內隱私保護要求越來越高,尤其對運營商保護客戶隱私的要求下,基于大數據和AI、機器學習和深度學習技術,在不涉及用戶隱私的情況線下,通過生成海量互聯網網站快照數據,進行基于深度學習的分析檢測越來越成為互聯網有害信息檢測迫切要求的手段。
現有的針對互聯網有害信息識別模型往往需要大量的有標簽數據進行訓練,而在實際應用中,很難獲得針對某一特殊領域或者特殊用戶群體的大量的有標簽的訓練信息,這就導致利用小樣本數據訓練出的模型往往無法達到理想的效果,此外,訓練出一個成熟的深度機器學習模型往往需要消耗大量的時間以及計算資源,導致針對于新任務的訓練成本大大提高。
發明內容
本發明的目的在于至少解決現有技術中存在的技術問題之一,提供了一種基于生成對抗網絡和深度學習的有害網站的檢測方法、裝置及介質,節省了研發資源,以及將大數據機器學習成果轉移到小數據、定制化應用等提供了一個便捷的渠道,具有廣泛的應用前景以及巨大的實用價值。
本發明的技術方案包括一種基于生成對抗網絡和深度學習的有害網站的檢測方法,其特征在于,該方法包括:S100,通過爬蟲獲取若干包括有害網址的第一網站快照;S200,將所述第一網站快照作為生成對抗網絡的數據輸入,得到多個模擬網站快照;S300,將所述模擬網站快照與若干正常網站的第二網站快照進行組合,得到訓練集;S400,微調用于訓練的卷積神經網絡,將所述訓練集通過所述卷積神經網絡進行訓練,得到用于有害網站的檢測模型。
根據所述的基于生成對抗網絡和深度學習的有害網站的檢測方法,其中S100包括:S110,從網址數據庫中篩選出有害網址;S120,通過爬蟲從所述有害網址爬取不同網頁風格的所述第一網站快照;S130,為爬取的所述第一網站快照添加對應標簽,所述標簽用于標識網站為正常網站或有害網站;S140,從所述網址數據庫中篩選出正常網站,并重復所述S120~S130直至得到設定數量的所述第一網站快照;S150,將帶有所述標簽的所述第一網站快照存儲至數據庫。
根據所述的基于生成對抗網絡和深度學習的有害網站的檢測方法,其中S200包括:S210,通過爬蟲爬取已知有害網址的網站快照,從所述數據庫中讀取帶有所述標簽的所述第一網站快照,并按照設定比例將其隨機劃分為訓練集和測試集;S220,將所述訓練集輸入所述生成對抗網絡的模型進行訓練,通過所述生成對抗網絡自動學習不同網站快照的風格以及特征,具體地,保持正常網站的快照高級特征不變的情況下,將學習到的不同有害網站快照風格遷移到正常網站的快照上;S230,通過所述測試集對若干經過所述生成對抗網絡的模型所述生成對抗網絡的模型進行測試,篩選出性能最優的模型;S240,通過性能最優的所述生成對抗網絡生成帶有不同有害網站快照風格的所述模擬網站快照;S250,對所述模擬網站快照添加有害網站的所述標簽,并與通過爬蟲爬取的網站快照一起組合成新的數據集,并寫入數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海高凌信息科技股份有限公司,未經珠海高凌信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110830095.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:認證安全策略執行方法、裝置及計算設備
- 下一篇:一種評估多能干細胞質量的方法





