[發(fā)明專利]一種基于暗網(wǎng)網(wǎng)站綜合特征的網(wǎng)站分類方法有效
| 申請?zhí)枺?/td> | 201710397901.2 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107341183B | 公開(公告)日: | 2021-06-22 |
| 發(fā)明(設(shè)計)人: | 譚慶豐;時金橋;王學(xué)賓;尹澤林;李抗;蔣曉明;陳牧謙;高悅 | 申請(專利權(quán))人: | 中國科學(xué)院信息工程研究所 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/35 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)站 綜合 特征 分類 方法 | ||
1.一種基于暗網(wǎng)網(wǎng)站綜合特征的網(wǎng)站分類方法,其步驟為:
1)爬取帶標(biāo)注的目標(biāo)暗網(wǎng)網(wǎng)站或爬取目標(biāo)暗網(wǎng)網(wǎng)站并標(biāo)注,得到一帶標(biāo)注的暗網(wǎng)網(wǎng)站訓(xùn)練集合;利用Smote算法對帶標(biāo)注的暗網(wǎng)網(wǎng)站訓(xùn)練集合中不同類別暗網(wǎng)網(wǎng)站數(shù)量分布進行均衡:將數(shù)量不足種類的所有樣本的網(wǎng)站文本特征空間向量和網(wǎng)站的結(jié)構(gòu)特征空間向量作為輸入,利用Smote算法對向量進行擴充;
2)提取該暗網(wǎng)網(wǎng)站訓(xùn)練集合中每一網(wǎng)站信息進行分詞,構(gòu)建該網(wǎng)站的詞的空間向量,并計算每一詞的TF-IDF值作為該詞的權(quán)重;將詞的空間向量中的詞與對應(yīng)權(quán)重進行相乘后的空間向量作為網(wǎng)站的文本特征;
3)提取該暗網(wǎng)網(wǎng)站訓(xùn)練集合中每一網(wǎng)站的標(biāo)簽,將每一個標(biāo)簽當(dāng)做一個詞,構(gòu)建該網(wǎng)站的標(biāo)簽的空間向量,并計算每個標(biāo)簽的TF-IDF值作為該標(biāo)簽的權(quán)重;將標(biāo)簽的空間向量中的標(biāo)簽與對應(yīng)權(quán)重相乘后的空間向量作為網(wǎng)站的結(jié)構(gòu)特征;
4)將每一網(wǎng)站的文本特征與結(jié)構(gòu)特征結(jié)合在一起,作為該網(wǎng)站的綜合特征;
5)分別采用線性模型、非線性模型、集成學(xué)習(xí)模型訓(xùn)練各網(wǎng)站的綜合特征,得到三個分類模型;然后利用該三個分類模型對待分類網(wǎng)站進行預(yù)測,然后綜合得到的三個預(yù)測結(jié)果,確定該待分類網(wǎng)站的類別。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟2)中,如果分詞為網(wǎng)站信息中的帶Keyword、Description或Title標(biāo)簽的詞,則進一步增大該分詞的權(quán)重。
3.如權(quán)利要求1所述的方法,其特征在于,利用word-bag模型構(gòu)建所述詞的空間向量;利用word-bag模型構(gòu)建所述標(biāo)簽的空間向量。
4.如權(quán)利要求1所述的方法,其特征在于,利用卡方值對網(wǎng)站的所述文本特征進行特征選擇,降低所述文本特征的維數(shù),然后與該網(wǎng)站的所述結(jié)構(gòu)特征結(jié)合在一起,作為該網(wǎng)站的綜合特征。
5.如權(quán)利要求1所述的方法,其特征在于,所述步驟1)中,爬取深度小于等于2。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院信息工程研究所,未經(jīng)中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710397901.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





