[發(fā)明專利]基于生成對抗網(wǎng)絡(luò)和深度學習的有害網(wǎng)站的檢測方法有效
| 申請?zhí)枺?/td> | 202110830095.X | 申請日: | 2021-07-22 |
| 公開(公告)號: | CN113657453B | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計)人: | 劉立峰;李麗;董華;馮志峰;鮑尚策 | 申請(專利權(quán))人: | 珠海高凌信息科技股份有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06N3/0464;G06F21/56;G06F16/9535 |
| 代理公司: | 廣州嘉權(quán)專利商標事務所有限公司 44205 | 代理人: | 張志輝 |
| 地址: | 519060 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 生成 對抗 網(wǎng)絡(luò) 深度 學習 有害 網(wǎng)站 檢測 方法 | ||
1.一種基于生成對抗網(wǎng)絡(luò)和深度學習的有害網(wǎng)站的檢測方法,其特征在于,該方法包括:
S100,通過爬蟲獲取若干包括有害網(wǎng)址的第一網(wǎng)站快照;
S200,將所述第一網(wǎng)站快照作為生成對抗網(wǎng)絡(luò)的數(shù)據(jù)輸入,得到多個模擬網(wǎng)站快照;
S300,將所述模擬網(wǎng)站快照與若干正常網(wǎng)站的第二網(wǎng)站快照進行組合,得到訓練集;
S400,微調(diào)用于訓練的卷積神經(jīng)網(wǎng)絡(luò),將所述訓練集通過所述卷積神經(jīng)網(wǎng)絡(luò)進行訓練,得到用于有害網(wǎng)站的檢測模型;
所述S100包括:
S110,從網(wǎng)址數(shù)據(jù)庫中篩選出有害網(wǎng)址;
S120,通過爬蟲從所述有害網(wǎng)址爬取不同網(wǎng)頁風格的所述第一網(wǎng)站快照;
S130,為爬取的所述第一網(wǎng)站快照添加對應標簽,所述標簽用于標識網(wǎng)站為正常網(wǎng)站或有害網(wǎng)站;
S140,從所述網(wǎng)址數(shù)據(jù)庫中篩選出正常網(wǎng)站,并重復所述S120~S130直至得到設(shè)定數(shù)量的所述第一網(wǎng)站快照;
S150,將帶有所述標簽的所述第一網(wǎng)站快照存儲至數(shù)據(jù)庫;
所述S200包括:
S210,通過爬蟲爬取已知有害網(wǎng)址的網(wǎng)站快照,從所述數(shù)據(jù)庫中讀取帶有所述標簽的所述第一網(wǎng)站快照,并按照設(shè)定比例將其隨機劃分為訓練集和測試集;
S220,將所述訓練集輸入所述生成對抗網(wǎng)絡(luò)的模型進行訓練,通過所述生成對抗網(wǎng)絡(luò)自動學習不同網(wǎng)站快照的風格以及特征,具體地,保持正常網(wǎng)站的快照高級特征不變的情況下,將學習到的不同有害網(wǎng)站快照風格遷移到正常網(wǎng)站的快照上;
S230,通過所述測試集對若干經(jīng)過所述生成對抗網(wǎng)絡(luò)的模型所述生成對抗網(wǎng)絡(luò)的模型進行測試,篩選出性能最優(yōu)的模型;
S240,通過性能最優(yōu)的所述生成對抗網(wǎng)絡(luò)生成帶有不同有害網(wǎng)站快照風格的所述模擬網(wǎng)站快照;
S250,對所述模擬網(wǎng)站快照添加有害網(wǎng)站的所述標簽,并與通過爬蟲爬取的網(wǎng)站快照一起組合成新的數(shù)據(jù)集,并寫入數(shù)據(jù)庫;
所述S220包括:
S221,實例化已訓練的深度卷積神經(jīng)網(wǎng)絡(luò)模型,并移除深度卷積神經(jīng)網(wǎng)絡(luò)模型的最后一層;
S222,加載除最后一層外的模型參數(shù),保留深度卷積神經(jīng)網(wǎng)絡(luò)模型捕捉到的已有圖像類型的高級特征;
S223,將網(wǎng)站快照輸入至深度神經(jīng)網(wǎng)絡(luò)模型,由淺到深地提取輸入圖片更高層次的特征,最終返回輸入網(wǎng)站快照的高級特征;
S224,通過最小化源網(wǎng)站快照與目標網(wǎng)站快照的均方誤差保持源網(wǎng)站快照與目標網(wǎng)站快照在高級特征上的一致性。
2.根據(jù)權(quán)利要求1所述的基于生成對抗網(wǎng)絡(luò)和深度學習的有害網(wǎng)站的檢測方法,其特征在于,所述S400包括:
S410,將通過對抗訓練獲得的數(shù)據(jù)集打亂并按照一定的比例隨機劃分為訓練集和測試集;
S420,加載已訓練的深度卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù),同時凍結(jié)除最后一層外其余層的權(quán)重;
S430,使用訓練集訓對深度卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)進行微調(diào),通過深度卷積神經(jīng)網(wǎng)絡(luò)模型自動學習不同類別網(wǎng)站快照的特征,直至收斂;
S440,通過在測試集上進行測試,篩選出性能最優(yōu)的模型,并進行保存;
S450,用上一步保存的訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型識別未知類別的網(wǎng)站快照,自動判斷輸入的網(wǎng)站快照類型。
3.根據(jù)權(quán)利要求1所述的基于生成對抗網(wǎng)絡(luò)和深度學習的有害網(wǎng)站的檢測方法,其特征在于,所述生成對抗網(wǎng)絡(luò)及所述深度卷積神經(jīng)網(wǎng)絡(luò)分別設(shè)置為CycleGAN和ResNet。
4.根據(jù)權(quán)利要求1所述的基于生成對抗網(wǎng)絡(luò)和深度學習的有害網(wǎng)站的檢測方法,其特征在于,所述深度卷積神經(jīng)網(wǎng)絡(luò)模型及所述生成對抗網(wǎng)絡(luò)所訓練出的模型通過測試集進行測試,并通過準確率及損失對模型的性能進行評估。
5.一種基于生成對抗網(wǎng)絡(luò)和深度學習的有害網(wǎng)站的檢測裝置,該裝置包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至4任一項所述的方法步驟。
6.一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至4任一項所述的方法步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于珠海高凌信息科技股份有限公司,未經(jīng)珠海高凌信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110830095.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復網(wǎng)絡(luò)地址自動恢復的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





