[發(fā)明專利]一種基于正則表達(dá)式的惡意搜索關(guān)鍵詞識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310401159.X | 申請(qǐng)日: | 2013-09-05 |
| 公開(kāi)(公告)號(hào): | CN103455754A | 公開(kāi)(公告)日: | 2013-12-18 |
| 發(fā)明(設(shè)計(jì))人: | 鄒福泰;白巍;潘道欣;易平 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06F21/50 | 分類號(hào): | G06F21/50 |
| 代理公司: | 上海旭誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 正則 表達(dá)式 惡意 搜索關(guān)鍵詞 識(shí)別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種惡意搜索關(guān)鍵詞的識(shí)別方法,尤其涉及一種基于正則表達(dá)式的惡意搜索關(guān)鍵詞的識(shí)別方法。
背景技術(shù)
根據(jù)對(duì)數(shù)百起網(wǎng)絡(luò)安全事件的分析和追蹤,針對(duì)性的網(wǎng)站攻擊入侵事件往往伴隨著對(duì)攻擊目標(biāo)的全方位信息搜集和漏洞挖掘。黑客攻擊往往是在發(fā)現(xiàn)了系統(tǒng)或網(wǎng)絡(luò)某些漏洞的基礎(chǔ)上,針對(duì)新的漏洞不斷產(chǎn)生新的攻擊方法。為了測(cè)試新的漏洞和攻擊方法,黑客往往要利用搜索引擎在互聯(lián)網(wǎng)上搜索可能存在某種漏洞的網(wǎng)站,對(duì)其進(jìn)行攻擊。還有黑客針對(duì)某種漏洞,寫(xiě)出了某種特定的掃描和自動(dòng)入侵的工具,通過(guò)搜索引擎,對(duì)互聯(lián)網(wǎng)上可能存在這種漏洞的所有網(wǎng)站進(jìn)行大規(guī)模的掃描和入侵。這幾年,利用Google、百度等公開(kāi)搜索引擎的黑客攻擊已經(jīng)成為了一種重要的黑客攻擊手段。
這種黑客攻擊手段已經(jīng)被大部分攻擊者所熟練掌握。如果能夠及時(shí)分析攻擊者使用的關(guān)鍵詞,并找到相應(yīng)的網(wǎng)站,就可以及時(shí)發(fā)現(xiàn)網(wǎng)站內(nèi)的安全薄弱點(diǎn)和容易被攻擊的網(wǎng)站目標(biāo),也可以通過(guò)對(duì)這些數(shù)據(jù)的分析挖掘,預(yù)測(cè)出攻擊者在不同時(shí)間段的攻擊方向,以及新的網(wǎng)站攻擊漏洞。
例如,在來(lái)自搜索引擎的關(guān)鍵詞列表內(nèi)首次發(fā)現(xiàn)″inurl:index.action″、″inurl:(.action)site:.edu.cn″、″inurl:edu.cn?filetype:action″、″inurl:index.action″、″allinurl:+index.action″,都導(dǎo)引到某幾個(gè)固定的幾個(gè)網(wǎng)站。對(duì)于首次發(fā)現(xiàn)的搜索引擎的關(guān)鍵詞都導(dǎo)引到某幾個(gè)固定的網(wǎng)站,通過(guò)分析,這是針對(duì)Apache?Struts2框架漏洞攻擊嘗試的前期信息搜集,而且目前大量開(kāi)發(fā)者利用J2EE開(kāi)發(fā)Web應(yīng)用的時(shí)候都會(huì)利用到這個(gè)框架。因此,對(duì)搜索引擎所用的惡意關(guān)鍵詞的甄別對(duì)安全防范極具意義。。
因此,本領(lǐng)域的技術(shù)人員致力于開(kāi)發(fā)一種基于正則表達(dá)式的惡意搜索關(guān)鍵詞的識(shí)別方法,以識(shí)別已知和未知的惡意搜索關(guān)鍵詞。方法是根據(jù)已知的惡意搜索關(guān)鍵詞,不斷識(shí)別新的惡意搜索關(guān)鍵詞,并將新的惡意搜索關(guān)鍵詞不斷更新到已知的惡意搜索關(guān)鍵詞集中,使其與最新的黑客技術(shù)同步。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于正則表達(dá)式的惡意搜索關(guān)鍵詞識(shí)別方法
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于正則表達(dá)式的惡意搜索關(guān)鍵詞識(shí)別方法,其特征在于,包括以下步驟:
步驟(101)提取特征片段:根據(jù)已知的惡意搜索關(guān)鍵詞集,利用分類器、廣義后綴樹(shù)和CSS(Color?Set?Size)算法提取特征片段;
步驟(102)建立關(guān)鍵詞樹(shù):整理與連接提取的所述特征片段建立一個(gè)關(guān)鍵詞樹(shù),則所述關(guān)鍵詞樹(shù)上的每條路徑經(jīng)過(guò)的特征片段都連成一個(gè)正則表達(dá)式;
步驟(103)建立過(guò)濾器:篩選和精簡(jiǎn)所有的所述正則表達(dá)式,得到最后的正則表達(dá)式輸出集,將所述正則表達(dá)式輸出集作為所述過(guò)濾器的閾值,建立過(guò)濾器;
步驟(104)識(shí)別和提取惡意搜索關(guān)鍵詞:利用所述過(guò)濾器對(duì)網(wǎng)絡(luò)流量中根據(jù)HTTP?Referer識(shí)別出的搜索引擎的搜索請(qǐng)求所包含的的關(guān)鍵詞進(jìn)行正則匹配識(shí)別,以發(fā)現(xiàn)惡意搜索攻擊和提取新惡意搜索關(guān)鍵詞,并將所述新惡意搜索關(guān)鍵詞加入到所述已知的惡意搜索關(guān)鍵詞集中;
步驟(105)結(jié)束。
進(jìn)一步地,所述分類器依據(jù)搜索攻擊目的對(duì)所述已知的惡意搜索關(guān)鍵詞集進(jìn)行分類。
進(jìn)一步地,所述廣義后綴樹(shù)和所述CSS算法是按照關(guān)鍵詞出現(xiàn)頻率來(lái)提取所述特征片段的。
進(jìn)一步地,所述關(guān)鍵詞樹(shù)只有一個(gè)根節(jié)點(diǎn),所述特征片段做為所述關(guān)鍵詞樹(shù)的子節(jié)點(diǎn)。
進(jìn)一步地,所述關(guān)鍵詞樹(shù)的所述子節(jié)點(diǎn)是以所述特征片段出現(xiàn)的頻率為依據(jù)來(lái)排列的:所述特征片段的出現(xiàn)頻率越高,所述特征片段越靠近所述根節(jié)點(diǎn);所述特征片段的出現(xiàn)頻率越低,所述特征片段越遠(yuǎn)離所述根節(jié)點(diǎn)。
進(jìn)一步地,所述步驟(103)中所述正則表達(dá)式的篩選和精簡(jiǎn)是通過(guò)對(duì)所述正則表達(dá)式進(jìn)行基于熵的評(píng)價(jià)來(lái)完成的。
進(jìn)一步地,所述基于熵的評(píng)價(jià)包括:計(jì)算出所述正則表達(dá)式匹配一個(gè)隨機(jī)字串的概率;設(shè)定判斷閾值;將所述概率與所述判斷閾值進(jìn)行比較;選取所述概率小于所述判斷閾值的正則表達(dá)式做為所述正則表達(dá)式輸出集。
進(jìn)一步地,所述判斷閾值的范圍在0到1之間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310401159.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過(guò)保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過(guò)保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過(guò)感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過(guò)限制訪問(wèn)計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過(guò)限制訪問(wèn)或處理程序或過(guò)程
- 一種正則表達(dá)式匹配方法及裝置
- 一種對(duì)多個(gè)相關(guān)謂詞進(jìn)行合并的方法
- 表達(dá)式處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種智能表達(dá)式解析平臺(tái)及方法
- 一種復(fù)合表達(dá)式解析方法及系統(tǒng)
- 一種表達(dá)式的解析處理方法及裝置
- 定制生成表達(dá)式方法及裝置
- 日志中關(guān)鍵信息提取方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種基于特征線法的組合幾何中子輸運(yùn)處理方法及裝置
- 一種基于向量化執(zhí)行引擎的數(shù)據(jù)庫(kù)表達(dá)式計(jì)算的復(fù)用方法
- 惡意特征數(shù)據(jù)庫(kù)的建立方法、惡意對(duì)象檢測(cè)方法及其裝置
- 用于檢測(cè)惡意鏈接的方法及系統(tǒng)
- 惡意信息識(shí)別方法、惡意信息識(shí)別裝置及系統(tǒng)
- 主動(dòng)式移動(dòng)終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺(tái)系統(tǒng)及其方法
- 一種追溯惡意進(jìn)程的方法、裝置及存儲(chǔ)介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測(cè)方法及系統(tǒng)
- 惡意樣本增強(qiáng)方法、惡意程序檢測(cè)方法及對(duì)應(yīng)裝置
- 惡意語(yǔ)音樣本的確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





