[發(fā)明專利]一種基于暗網(wǎng)數(shù)據(jù)的未知網(wǎng)絡(luò)威脅自動(dòng)發(fā)現(xiàn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910763695.1 | 申請(qǐng)日: | 2019-08-19 |
| 公開(kāi)(公告)號(hào): | CN112464666B | 公開(kāi)(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 劉亮;李孟銘;鄭榮鋒 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/205;G06F16/35;G06F16/951;G06N3/02 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 610065 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 未知 網(wǎng)絡(luò) 威脅 自動(dòng) 發(fā)現(xiàn) 方法 | ||
本方法公布了一種基于暗網(wǎng)數(shù)據(jù)的未知網(wǎng)絡(luò)威脅自動(dòng)發(fā)現(xiàn)方法。本方法包括:1)爬取暗網(wǎng)論壇和交易平臺(tái)并標(biāo)注文本作為訓(xùn)練集合;2)使用文本訓(xùn)練集合構(gòu)建word2vec模型和暗網(wǎng)文本命名實(shí)體識(shí)別模型;4)使用word2vec模型得每一文本特征并訓(xùn)練暗網(wǎng)文本分類模型,利用該模型對(duì)暗網(wǎng)文本分類;6)通過(guò)命名實(shí)體識(shí)別模型解析“數(shù)據(jù)庫(kù)泄露”類暗網(wǎng)文本,提取公司類命名實(shí)體,發(fā)現(xiàn)數(shù)據(jù)庫(kù)泄露事件;7)通過(guò)命名實(shí)體識(shí)別模型解析“黑客工具”和“惡意代碼”類暗網(wǎng)文本,提取黑客工具和惡意代碼類別命名實(shí)體,通過(guò)基于搜索引擎的方法判斷是否為未知的惡意代碼或黑客工具。本方法可以幫助安全人員及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)威脅。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)數(shù)據(jù)分析和文本挖掘領(lǐng)域,設(shè)計(jì)一種基于暗網(wǎng)數(shù)據(jù)的未知網(wǎng)絡(luò)威脅自動(dòng)發(fā)現(xiàn)方法。
背景技術(shù)
根據(jù)維基百科的定義,暗網(wǎng)是存在于黑暗網(wǎng)絡(luò)、覆蓋網(wǎng)絡(luò)上的萬(wàn)維網(wǎng)內(nèi)容,只能使用特殊軟件、特殊授權(quán)、或?qū)τ?jì)算機(jī)做特殊設(shè)置才能訪問(wèn)的網(wǎng)絡(luò)。構(gòu)成暗網(wǎng)的黑暗網(wǎng)絡(luò)包括F2F的小型點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)以及由公共組織和個(gè)人運(yùn)行的大型流行網(wǎng)絡(luò),如Tor、自由網(wǎng)、I2P和Riffle3。
長(zhǎng)期以來(lái),由于暗網(wǎng)能夠掩蓋上網(wǎng)者的真實(shí)身份和真實(shí)網(wǎng)絡(luò)信息,暗網(wǎng)被不法分子當(dāng)作傳播惡意代碼、交易黑產(chǎn)的平臺(tái)。近年來(lái),隨著網(wǎng)絡(luò)攻擊和黑產(chǎn)的快速發(fā)展,越來(lái)越多的黑客工具、惡意代碼和數(shù)據(jù)庫(kù)泄露事件,在被安全研究人員發(fā)現(xiàn)之前,都已經(jīng)在暗網(wǎng)論壇和暗網(wǎng)交易平臺(tái)中有了廣泛的傳播和討論。
當(dāng)前,由于暗網(wǎng)論壇和交易平臺(tái)上的數(shù)據(jù)量巨大,通過(guò)人工瀏覽、分析的方式難以及時(shí)、有效的從暗網(wǎng)中發(fā)現(xiàn)未知網(wǎng)絡(luò)威脅。
發(fā)明內(nèi)容
針對(duì)暗網(wǎng)論壇和暗網(wǎng)交易平臺(tái)的文本信息的特性,提出了一種基于暗網(wǎng)數(shù)據(jù)的未知網(wǎng)絡(luò)威脅自動(dòng)發(fā)現(xiàn)方法,可以用于從暗網(wǎng)論壇和暗網(wǎng)交易平臺(tái)中自動(dòng)發(fā)現(xiàn)未被安全人員掌握的網(wǎng)絡(luò)威脅?;诒疚姆椒▽?duì)暗網(wǎng)文本進(jìn)行處理,可以提前發(fā)現(xiàn)遭到攻擊、數(shù)據(jù)竊取的數(shù)據(jù)庫(kù)信息,可以提前發(fā)現(xiàn)暗網(wǎng)中進(jìn)行售賣的新型黑客工具和新型惡意代碼。由于本方法具有自動(dòng)發(fā)現(xiàn)功能,免去了網(wǎng)絡(luò)安全研究人員瀏覽、分析大量暗網(wǎng)文本的流程,也提高了對(duì)于暗網(wǎng)威脅的應(yīng)對(duì)能力。
本發(fā)明的技術(shù)關(guān)鍵點(diǎn)在于。
1、采用錯(cuò)詞修正算法、PoterStemming算法和基于正則表達(dá)式的文本替換方法,對(duì)暗網(wǎng)文本進(jìn)行預(yù)處理,解決暗網(wǎng)文本中的黑客語(yǔ)言造成的詞匯錯(cuò)亂,同時(shí)降低或去除低頻特征。
2、采用word2vec模型構(gòu)建暗網(wǎng)文本字符映射模型,去除低頻詞匯對(duì)于暗網(wǎng)文本分類的影響,同時(shí)降低了文本特征的維度,提高了模型構(gòu)建的效率和模型分類的準(zhǔn)確率。
3、結(jié)合所構(gòu)建的word2vec模型和BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型構(gòu)建暗網(wǎng)文本命名實(shí)體識(shí)別模型,以解決現(xiàn)有命名實(shí)體模型難以有效從暗網(wǎng)文本中提取命名實(shí)體的問(wèn)題。
4、使用基于搜索引擎的未知命名實(shí)體判斷方法,利用網(wǎng)絡(luò)安全公司與新型黑客工具、新型惡意代碼的關(guān)系,高效判斷命名實(shí)體是否為網(wǎng)絡(luò)安全研究人員所掌握。
本發(fā)明為減少人工標(biāo)注成本,在對(duì)論壇帖子和暗網(wǎng)交易平臺(tái)商品信息進(jìn)行標(biāo)注的過(guò)程中,通過(guò)爬取暗網(wǎng)論壇和暗網(wǎng)交易平臺(tái)中已有分類標(biāo)簽的數(shù)據(jù)再進(jìn)行人工審核;在對(duì)暗網(wǎng)文本序列進(jìn)行標(biāo)注的過(guò)程中,首先從維基百科中收集公司集合、數(shù)據(jù)庫(kù)軟件集合、常見(jiàn)軟件集合、已知黑客工具集合和已知惡意代碼集合,根據(jù)專家經(jīng)驗(yàn)匯總出常見(jiàn)黑客語(yǔ)言集合,然后采用現(xiàn)有的命名實(shí)體對(duì)文本序列進(jìn)行標(biāo)注,然后使用收集到的各類文本集合對(duì)文本序列進(jìn)行標(biāo)注,最后進(jìn)行人工審核。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910763695.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種未知應(yīng)用層協(xié)議自動(dòng)分析方法
- 打開(kāi)未知文件的方法和裝置
- 未知節(jié)點(diǎn)利用多跳節(jié)點(diǎn)縮小其可能位置區(qū)域的定位方法
- 一種利用多跳未知節(jié)點(diǎn)鄰居來(lái)提高定位精度的定位方法
- 未知文件的打開(kāi)方法及裝置
- 未知號(hào)碼分級(jí)方法、未知號(hào)碼標(biāo)記方法及裝置
- 一種針對(duì)現(xiàn)有導(dǎo)航地圖中未知的道路進(jìn)行識(shí)別和導(dǎo)航的方法
- 一種未知組播報(bào)文的處理方法和裝置
- 一種農(nóng)藥殘留的檢測(cè)方法、系統(tǒng)、電子裝置及存儲(chǔ)介質(zhì)
- 未知病毒感染追溯方法、裝置及系統(tǒng)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





