[發(fā)明專利]一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁去重方法在審
| 申請?zhí)枺?/td> | 202011176217.X | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112257073A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 徐光俠;王利;馬創(chuàng);劉俊;張家俊 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06K9/62;G06N3/00;G06F16/953;G06F16/951 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) dbscan 算法 網(wǎng)頁 方法 | ||
本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,尤其涉及一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁去重方法,該方法包括:實(shí)時(shí)獲取網(wǎng)站數(shù)據(jù),將獲取的網(wǎng)站數(shù)據(jù)輸入到訓(xùn)練好的網(wǎng)頁去重算法模型中,根據(jù)訓(xùn)練結(jié)果對網(wǎng)站數(shù)據(jù)集中數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)剔除,得到后續(xù)要進(jìn)行漏洞掃描的數(shù)據(jù)集;所述網(wǎng)頁去重算法模型通過改進(jìn)的人工蜂群算法尋找最優(yōu)參數(shù),采用最優(yōu)參數(shù)替換DBSCAN算法的兩個(gè)參數(shù),采用鄰近搜索策略對DBSCAN算法的核心點(diǎn)選取過程進(jìn)行改進(jìn),得到網(wǎng)頁去重算法模型;本發(fā)明利用改進(jìn)的人工蜂群算法對構(gòu)建好的人工數(shù)據(jù)集進(jìn)行最優(yōu)參數(shù)選擇,再將找到的最優(yōu)參數(shù)用于DBSCAN算法的參數(shù)設(shè)置,提高了DBSCAN算法的聚類效果。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,尤其涉及一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁去重方法。
背景技術(shù)
隨著信息時(shí)代的發(fā)展,互聯(lián)網(wǎng)行業(yè)通過網(wǎng)絡(luò)在給人們提供生活便利的同時(shí),也帶來了無數(shù)的機(jī)遇;由于互聯(lián)網(wǎng)的快速發(fā)展,在網(wǎng)絡(luò)系統(tǒng)的結(jié)構(gòu)安全方面沒有足夠的保護(hù)措施,導(dǎo)致網(wǎng)絡(luò)漏洞在近年成為互聯(lián)網(wǎng)行業(yè)的重要安全突破口。那么如何去應(yīng)對網(wǎng)絡(luò)攻擊,如何去預(yù)防網(wǎng)絡(luò)攻擊,保護(hù)人們的信息資產(chǎn)不受損失,給予用戶一個(gè)安全的上網(wǎng)環(huán)境,成為現(xiàn)在社會(huì)亟待解決的問題。目前主要利用漏洞掃描器對網(wǎng)頁進(jìn)行安全掃描,提前暴露網(wǎng)頁的漏洞信息,對提前暴露的漏洞進(jìn)行修復(fù),防止被黑客入侵。
漏洞掃描器通過每個(gè)頁面的請求信息區(qū)分每個(gè)頁面,并以每個(gè)頁面單位進(jìn)行漏洞掃描。由于網(wǎng)站存在大量頁面的情況,因此需要對重復(fù)頁面進(jìn)行過濾,加快掃描速率。進(jìn)行頁面去重處理的方法包括基于正則匹配的頁面去重技術(shù)和DBSCAN算法。所述基于正則匹配的頁面去重技術(shù)通過字符串相似程度區(qū)別不同頁面,如果兩個(gè)頁面的字符串內(nèi)容相同,說明二者是一類的頁面,只需要選取一個(gè)頁面;否則就分為不同的類別;但是該算法不能考慮多個(gè)特征綜合,使得分類的結(jié)果不準(zhǔn)確。所述DBSCAN算法是一種經(jīng)典的基于密度的聚類算法,采用該算法進(jìn)行聚類時(shí),不需要指定類別數(shù)并且可以識別離群點(diǎn)以及識別任意數(shù)量和形狀的簇。在使用DBSCAN算法對頁面數(shù)據(jù)集進(jìn)行聚類分析時(shí),由于在每一聚類簇中的數(shù)據(jù)都是相似的,所以每一聚類簇中的數(shù)據(jù)是重復(fù)的頁面請求數(shù)據(jù),在進(jìn)行漏洞掃描時(shí)只需要在其中選取一條數(shù)據(jù)。但是DBSCAN算法存在對半徑參數(shù)值ε和密度閾值參數(shù)值Minpts的選取敏感的問題,并且在采用DBSCAN算法查找最鄰近數(shù)據(jù)點(diǎn)時(shí),其查找的速率慢,降低了網(wǎng)頁去重的效率。
發(fā)明內(nèi)容
為解決以上現(xiàn)有技術(shù)的問題,本發(fā)明提出了一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁去重方法,該方法包括:實(shí)時(shí)獲取網(wǎng)站數(shù)據(jù),將獲取的網(wǎng)站數(shù)據(jù)輸入到訓(xùn)練好的網(wǎng)頁去重算法模型中剔除網(wǎng)站數(shù)據(jù)集中重復(fù)的數(shù)據(jù),得到后續(xù)要進(jìn)行漏洞掃描的數(shù)據(jù)集;
構(gòu)建網(wǎng)頁去重算法模型的過程包括:
S1:獲取網(wǎng)站數(shù)據(jù),對獲取的網(wǎng)站數(shù)據(jù)進(jìn)行特征提取和特征量化處理;
S2:對量化后的網(wǎng)站數(shù)據(jù)進(jìn)行選擇性特征加權(quán)處理,得到頁面數(shù)據(jù)集D;
S3:將頁面數(shù)據(jù)集D輸入到改進(jìn)的人工蜂群算法中進(jìn)行訓(xùn)練,得到最優(yōu)參數(shù)值;所述改進(jìn)的人工蜂群算法包括采用截?cái)噙x擇機(jī)制對人工蜂群算法中的蜜源選擇過程進(jìn)行優(yōu)化;
S4:根據(jù)最優(yōu)參數(shù)值和鄰近搜索策略對DBSCAN算法進(jìn)行改進(jìn),得到網(wǎng)頁去重算法模型;
S5:將頁面數(shù)據(jù)集D中的數(shù)據(jù)輸入到網(wǎng)頁去重算法模型中進(jìn)行訓(xùn)練,得到各個(gè)數(shù)據(jù)點(diǎn)的簇標(biāo)簽;
S6:根據(jù)簇標(biāo)簽的不同,在每個(gè)簇中各選一條數(shù)據(jù)構(gòu)建待進(jìn)行漏洞掃描的數(shù)據(jù)集。
優(yōu)選的,對獲取的網(wǎng)站數(shù)據(jù)提取的特征包括:請求方法、請求地址、請求參數(shù)名、請求參數(shù)個(gè)數(shù)、請求主機(jī)名以及消息實(shí)體的傳輸長度;對提取到的特征進(jìn)行量化處理。
進(jìn)一步的,量化處理的過程包括:將不同的請求方法直接賦予0-9內(nèi)的數(shù)字標(biāo)號,將各個(gè)消息實(shí)體的傳輸長度值作為特征值,根據(jù)請求地址和請求參數(shù)名建立字典,統(tǒng)計(jì)請求參數(shù)個(gè)數(shù)的數(shù)量,將參數(shù)的個(gè)數(shù)作為其特征值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011176217.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種減振效果良好的汽車機(jī)腳墊
- 下一篇:一種汽車地毯總成
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 基于密度聚類法和形態(tài)學(xué)聚類法的駕駛員注視點(diǎn)聚類方法
- 一種基于剪枝方式的DBSCAN分塊優(yōu)化方法
- 一種基于MVO改進(jìn)的DBSCAN礦井突水光譜識別方法
- 一種基于DBSCAN對密度不規(guī)則數(shù)據(jù)進(jìn)行異常挖掘的改進(jìn)算法
- 一種基于DBSCAN密度聚類的交叉口信號控制方法、裝置及系統(tǒng)
- 一種基于聚簇輪廓的網(wǎng)絡(luò)異常檢測方法
- 基于DBSCAN算法的互聯(lián)網(wǎng)金融欺詐行為檢測方法
- 開關(guān)柜狀態(tài)評估方法和裝置
- 一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁去重方法
- 一種利用DBSCAN聚類算法識別云團(tuán)的方法、裝置及電子設(shè)備





