[發(fā)明專利]一種基于大數(shù)據(jù)算法的SQL注入檢測方法在審
| 申請?zhí)枺?/td> | 201810261815.3 | 申請日: | 2018-03-28 |
| 公開(公告)號: | CN110321707A | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設(shè)計(jì))人: | 楊育斌;陶彥百;柯宗貴 | 申請(專利權(quán))人: | 藍(lán)盾信息安全技術(shù)有限公司 |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06F21/55;H04L29/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510665 廣東省廣州市廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 算法 大數(shù)據(jù) 訓(xùn)練集 語句 檢測 工程處理 交叉驗(yàn)證 網(wǎng)絡(luò)審計(jì) 逐漸降低 字符轉(zhuǎn)換 貝葉斯 漏報(bào)率 分詞 誤報(bào) 升高 后代 攻擊 學(xué)習(xí) | ||
本發(fā)明公開了一種基于大數(shù)據(jù)算法的SQL注入檢測方法,該方法通過模擬攻擊提取大量的SQL注入語句,進(jìn)行一系列的分詞、URL字符轉(zhuǎn)換,經(jīng)過交叉驗(yàn)證學(xué)習(xí)后構(gòu)造成樸素貝葉斯算法的訓(xùn)練集;將網(wǎng)絡(luò)審計(jì)數(shù)據(jù)進(jìn)行特征工程處理過后代入算法中,得到檢測SQL注入的結(jié)果,并且業(yè)務(wù)專家可以對其結(jié)果進(jìn)一步確認(rèn),再次將確定是SQL注入的語句存放到訓(xùn)練集中,使其訓(xùn)練集越來越豐富,識(shí)別精度逐漸升高,誤報(bào)、漏報(bào)率逐漸降低。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于大數(shù)據(jù)算法的SQL注入檢測方法。
背景技術(shù)
SQL注入就是將SQL命令插入到地址欄或者是頁面請求的字符串中,其目的是為了查詢服務(wù)器數(shù)據(jù)庫中的信息,非法的竊取到相關(guān)的信息。SQL注入的攻擊者往往是利用網(wǎng)站上的安全漏洞,竊取后臺(tái)數(shù)據(jù)庫的機(jī)密信息,而不是按照設(shè)計(jì)者意圖去執(zhí)行SQL語句。
目前大部分網(wǎng)站沒有做數(shù)據(jù)庫的安全防護(hù),絕大多數(shù)網(wǎng)站后臺(tái)都是用管理員權(quán)限去連接數(shù)據(jù)庫,且機(jī)密的信息直接以明文存放在數(shù)據(jù)庫,從而造成部分黑客利用此漏洞去竊取數(shù)據(jù)庫相關(guān)的信息,一般是竊取用戶的賬戶密碼、獲取管理員權(quán)限等,造成大量數(shù)據(jù)泄露。世上永遠(yuǎn)沒有絕對安全的后臺(tái),因此,在做好后端防護(hù)的情況下,及時(shí)的發(fā)現(xiàn)SQL注入攻擊源是重中之重,才能及時(shí)從根源上解決。
現(xiàn)有的識(shí)別SQL注入的方法大都是基于規(guī)則,通過枚舉SQL語法中的關(guān)鍵字和一些特殊符號,去匹配網(wǎng)頁中的URL。雖然此方法快速、便捷、見效快,但是每一個(gè)網(wǎng)站都不一樣,傳遞的參數(shù)也往往復(fù)雜多變,用這種規(guī)則匹配的方式很容易造成誤報(bào)、漏報(bào)。
發(fā)明內(nèi)容
首先運(yùn)維工程師對靶機(jī)打入大量不同類型的SQL注入攻擊,通過專家確認(rèn)后,作為訓(xùn)練數(shù)據(jù)利用Spark分布式集群定期訓(xùn)練樸素貝葉斯分類器模型。然后再通過在網(wǎng)絡(luò)節(jié)點(diǎn)中部署專門的協(xié)議解析工具,從數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層逐層拆封數(shù)據(jù)報(bào)文,解析協(xié)議頭部中的IP地址信息、訪問路徑,請求參數(shù)等特征,獲取每一條網(wǎng)絡(luò)行為的審計(jì)信息,通過數(shù)據(jù)采樣得到樣本,輸入樸素貝葉斯等模型進(jìn)行檢測,再將分類器結(jié)果存入至分布式存儲(chǔ)系統(tǒng)Hadoop的hdfs中,當(dāng)分類器的輸出結(jié)果為非正常時(shí),進(jìn)行告警。
為了實(shí)現(xiàn)所述目的,本發(fā)明提供的一種基于大數(shù)據(jù)算法的SQL注入檢測方法技術(shù)方案如下所述:
步驟S1:收集模擬SQL注入攻擊靶機(jī)的數(shù)據(jù),提取的信息包含IP地址信息、端口信息、協(xié)議類型、主機(jī)域名、URI、請求方式、流量發(fā)生時(shí)間,并將這些作為負(fù)樣本數(shù)據(jù)存儲(chǔ)到Hadoop的hdfs中。
步驟S2:基于特征工程提取SQL注入攻擊數(shù)據(jù)URI中的主要特征,即真正為SQL語法的語句,并基于URL字符的規(guī)則,將其URI轉(zhuǎn)義成一段可讀的文本,并且根據(jù)空格對其攻擊數(shù)據(jù)進(jìn)行分詞,分出來的詞必須攜帶URL字符,例如SELECT*FROM TABLE分詞后為SELECT%20、%2A%20、FROM%20、TABLE。
步驟S3:收集實(shí)際生產(chǎn)環(huán)境的正常數(shù)據(jù),提取的信息包含IP地址信息、端口信息、協(xié)議類型、主機(jī)域名、URI、請求方式、流量發(fā)生時(shí)間,并將這些數(shù)據(jù)作為正樣本存儲(chǔ)到Hadoop的hdfs中。
步驟S4:對正樣本進(jìn)行分詞,將訪問鏈接中的URI用”/”、”?”、”=”等進(jìn)行分隔成單獨(dú)的詞語,并且根據(jù)空格對其正常數(shù)據(jù)進(jìn)行分詞,分出來的詞需要轉(zhuǎn)義,例如/HOME/CATEGORY分詞后為%2F、HOME、%2F、CATEGORY。
步驟S5:將正樣本和負(fù)樣本按照1:1的比例進(jìn)行混合,將混合后的混合樣本利用TF-IDF算法為各個(gè)詞賦予權(quán)重,即得到每個(gè)詞的詞頻向量和各個(gè)詞在樣本中重要程度的權(quán)重向量。
步驟S6:為了驗(yàn)證混合樣本是否可靠,將混合樣本按照7:3的比例劃分為訓(xùn)練集和校驗(yàn)集,通過訓(xùn)練集得到樸素貝葉斯分類模型;利用得到的樸素貝葉斯分類模型對校驗(yàn)集進(jìn)行分類,根據(jù)檢測值和數(shù)據(jù)標(biāo)簽的對比得出準(zhǔn)確率和混淆矩陣,以準(zhǔn)確率和混淆矩陣來調(diào)整參數(shù),使其分類結(jié)果更加優(yōu)秀。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于藍(lán)盾信息安全技術(shù)有限公司,未經(jīng)藍(lán)盾信息安全技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810261815.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動(dòng)的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺(tái)架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識(shí)產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)
- 一種訓(xùn)練集的拆分方法及裝置
- 一種訓(xùn)練集的訓(xùn)練方法及裝置
- 多重半監(jiān)督圖像的季節(jié)分類方法、系統(tǒng)、電子設(shè)備和介質(zhì)
- 一種基于特征分布的訓(xùn)練集生成、模型訓(xùn)練方法及裝置
- 訓(xùn)練集的獲取方法、裝置及電子設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種工業(yè)物聯(lián)網(wǎng)下的模型智能訓(xùn)練方法
- 一種基于集成學(xué)習(xí)的深度學(xué)習(xí)缺陷圖像識(shí)別方法及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 一種文本立場檢測方法
- 基于聊天大數(shù)據(jù)知識(shí)庫的機(jī)器人對話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對話控制方法和系統(tǒng)
- 基于對話知識(shí)庫的機(jī)器人對話控制方法和系統(tǒng)
- 一種自然語言語句評價(jià)方法及裝置
- 句子級雙語對齊方法及系統(tǒng)
- 一種獲取相似語句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)





