[發明專利]一種基于正則表達式的惡意搜索關鍵詞識別方法有效
| 申請號: | 201310401159.X | 申請日: | 2013-09-05 |
| 公開(公告)號: | CN103455754A | 公開(公告)日: | 2013-12-18 |
| 發明(設計)人: | 鄒福泰;白巍;潘道欣;易平 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F21/50 | 分類號: | G06F21/50 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 正則 表達式 惡意 搜索關鍵詞 識別 方法 | ||
1.一種基于正則表達式的惡意搜索關鍵詞識別方法,其特征在于,包括以下步驟:
步驟(101)提取特征片段:根據已知的惡意搜索關鍵詞集,利用分類器、廣義后綴樹和CSS算法提取特征片段;
步驟(102)建立關鍵詞樹:整理與連接提取的所述特征片段建立一個關鍵詞樹,則所述關鍵詞樹上的每條路徑經過的特征片段都連成一個正則表達式;
步驟(103)建立過濾器:篩選和精簡所有的所述正則表達式,得到最后的正則表達式輸出集,將所述正則表達式輸出集作為所述過濾器的閾值,建立過濾器;
步驟(104)識別和提取惡意搜索關鍵詞:利用所述過濾器對網絡流量中根據HTTP?Referer識別出的搜索引擎的搜索請求所包含的的關鍵詞進行正則匹配識別,以發現惡意搜索攻擊和提取新惡意搜索關鍵詞,并將所述新惡意搜索關鍵詞加入到所述已知的惡意搜索關鍵詞集中;
步驟(105)結束。
2.如權利要求1所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述分類器依據搜索攻擊目的對所述已知的惡意搜索關鍵詞集進行分類。
3.如權利要求1所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述廣義后綴樹和所述CSS算法是按照關鍵詞出現頻率來提取所述特征片段的。
4.如權利要求1所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述關鍵詞樹只有一個根節點,所述特征片段做為所述關鍵詞樹的子節點。
5.如權利要求4所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述關鍵詞樹的所述子節點是以所述特征片段出現的頻率為依據來排列的:所述特征片段的出現頻率越高,所述特征片段越靠近所述根節點;所述特征片段的出現頻率越低,所述特征片段越遠離所述根節點。
6.如權利要求1所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述步驟(103)中所述正則表達式的篩選和精簡是通過對所述正則表達式進行基于熵的評價來完成的。
7.如權利要求6所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述基于熵的評價包括:計算出所述正則表達式匹配一個隨機字串的概率;設定判斷閾值;將所述概率與所述判斷閾值進行比較;選取所述概率小于所述判斷閾值的正則表達式做為所述正則表達式輸出集。
8.如權利要求7所述的一種基于正則表達式的惡意搜索關鍵詞識別方法,其中,所述判斷閾值的范圍在0到1之間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310401159.X/1.html,轉載請聲明來源鉆瓜專利網。





