[發(fā)明專(zhuān)利]一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011176217.X | 申請(qǐng)日: | 2020-10-29 |
| 公開(kāi)(公告)號(hào): | CN112257073A | 公開(kāi)(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 徐光俠;王利;馬創(chuàng);劉俊;張家俊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 重慶郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F21/57 | 分類(lèi)號(hào): | G06F21/57;G06K9/62;G06N3/00;G06F16/953;G06F16/951 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) dbscan 算法 網(wǎng)頁(yè) 方法 | ||
1.一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法,其特征在于,所述方法包括:實(shí)時(shí)獲取網(wǎng)站數(shù)據(jù),將獲取的網(wǎng)站數(shù)據(jù)輸入到訓(xùn)練好的網(wǎng)頁(yè)去重算法模型中剔除網(wǎng)站數(shù)據(jù)集中重復(fù)的數(shù)據(jù),得到后續(xù)要進(jìn)行漏洞掃描的數(shù)據(jù)集;
構(gòu)建網(wǎng)頁(yè)去重算法模型的過(guò)程包括:
S1:獲取網(wǎng)站數(shù)據(jù),對(duì)獲取的網(wǎng)站數(shù)據(jù)進(jìn)行特征提取和特征量化處理;
S2:對(duì)量化后的網(wǎng)站數(shù)據(jù)進(jìn)行選擇性特征加權(quán)處理,得到頁(yè)面數(shù)據(jù)集D;
S3:將頁(yè)面數(shù)據(jù)集D輸入到改進(jìn)的人工蜂群算法中進(jìn)行訓(xùn)練,得到最優(yōu)參數(shù)值;所述改進(jìn)的人工蜂群算法包括采用截?cái)噙x擇機(jī)制對(duì)人工蜂群算法中的蜜源選擇過(guò)程進(jìn)行優(yōu)化;
S4:根據(jù)最優(yōu)參數(shù)值和鄰近搜索策略對(duì)DBSCAN算法進(jìn)行改進(jìn),得到網(wǎng)頁(yè)去重算法模型;
S5:將頁(yè)面數(shù)據(jù)集D中的數(shù)據(jù)輸入到網(wǎng)頁(yè)去重算法模型中進(jìn)行訓(xùn)練,得到各個(gè)數(shù)據(jù)點(diǎn)的簇標(biāo)簽;
S6:根據(jù)簇標(biāo)簽的不同,在每個(gè)簇中各選一條數(shù)據(jù)構(gòu)建待進(jìn)行漏洞掃描的數(shù)據(jù)集。
2.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法,其特征在于,對(duì)獲取的網(wǎng)站數(shù)據(jù)提取的特征包括:請(qǐng)求方法、請(qǐng)求地址、請(qǐng)求參數(shù)名、請(qǐng)求參數(shù)個(gè)數(shù)、請(qǐng)求主機(jī)名以及消息實(shí)體的傳輸長(zhǎng)度;對(duì)提取到的特征進(jìn)行量化處理。
3.根據(jù)權(quán)利要求2所述的一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法,其特征在于,量化處理的過(guò)程包括:將不同的請(qǐng)求方法直接賦予0-9內(nèi)的數(shù)字標(biāo)號(hào),將各個(gè)消息實(shí)體的傳輸長(zhǎng)度值作為特征值,根據(jù)請(qǐng)求地址和請(qǐng)求參數(shù)名建立字典,統(tǒng)計(jì)請(qǐng)求參數(shù)個(gè)數(shù)的數(shù)量,將參數(shù)的個(gè)數(shù)作為其特征值。
4.根據(jù)權(quán)利要求1所述的一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法,其特征在于,截?cái)噙x擇機(jī)制對(duì)人工蜂群算法進(jìn)行優(yōu)化的過(guò)程包括:
步驟1:計(jì)算頁(yè)面數(shù)據(jù)集D中每條數(shù)據(jù)的個(gè)體適應(yīng)度f(wàn)val;
步驟2:將頁(yè)面數(shù)據(jù)集D中的每條數(shù)據(jù)按個(gè)體適應(yīng)度f(wàn)val進(jìn)行降序排列;在種群中隨機(jī)選擇k個(gè)個(gè)體組成一組,選取該組中適應(yīng)度f(wàn)val最大的個(gè)體i;
步驟3:選取種群中前t%的較優(yōu)個(gè)體產(chǎn)生下一代種群,根據(jù)截?cái)噙x擇機(jī)制判斷位序?yàn)閕的個(gè)體產(chǎn)生子代種群的概率,當(dāng)選取的個(gè)體i滿足i≤M×t%時(shí),跟隨蜂在當(dāng)前蜜源鄰域進(jìn)行搜索,并產(chǎn)生子代種群;
步驟4:重復(fù)M次步驟3,產(chǎn)生新一代種群。
5.根據(jù)權(quán)利要求4所述的一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法,其特征在于,計(jì)算個(gè)體適應(yīng)度f(wàn)val的公式為:
其中,PWD表示概率加權(quán)稠密度,c表示簇的個(gè)數(shù),Sim(Ii,Ij)表示簇Ii和簇Ij間的相似度。
6.根據(jù)權(quán)利要求4所述的一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法,其特征在于,位序?yàn)閕的個(gè)體產(chǎn)生子代種群的概率公式為:
其中,Pi表示位序?yàn)閕的個(gè)體能夠產(chǎn)生下一代的概率,M表示種群規(guī)模,t%表示截?cái)嚅撝担?/p>
截?cái)嚅撝档挠?jì)算公式為:
其中,tmax表示最大截?cái)嚅撝担瑃min表示最小截?cái)嚅撝担琧yc表示采蜜蜂和跟隨蜂的當(dāng)前剩余搜索次數(shù),Mirator表示采蜜蜂和跟隨蜂的當(dāng)前最大搜索次數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011176217.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過(guò)保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過(guò)保護(hù)特定的外圍設(shè)備,如鍵盤(pán)或顯示器
G06F21-06 .通過(guò)感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過(guò)限制訪問(wèn)計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過(guò)限制訪問(wèn)或處理程序或過(guò)程
- 基于密度聚類(lèi)法和形態(tài)學(xué)聚類(lèi)法的駕駛員注視點(diǎn)聚類(lèi)方法
- 一種基于剪枝方式的DBSCAN分塊優(yōu)化方法
- 一種基于MVO改進(jìn)的DBSCAN礦井突水光譜識(shí)別方法
- 一種基于DBSCAN對(duì)密度不規(guī)則數(shù)據(jù)進(jìn)行異常挖掘的改進(jìn)算法
- 一種基于DBSCAN密度聚類(lèi)的交叉口信號(hào)控制方法、裝置及系統(tǒng)
- 一種基于聚簇輪廓的網(wǎng)絡(luò)異常檢測(cè)方法
- 基于DBSCAN算法的互聯(lián)網(wǎng)金融欺詐行為檢測(cè)方法
- 開(kāi)關(guān)柜狀態(tài)評(píng)估方法和裝置
- 一種基于改進(jìn)的DBSCAN算法的網(wǎng)頁(yè)去重方法
- 一種利用DBSCAN聚類(lèi)算法識(shí)別云團(tuán)的方法、裝置及電子設(shè)備





