[發明專利]非結構化文本中提取漏洞信息的方法在審
| 申請號: | 201610857283.0 | 申請日: | 2016-09-27 |
| 公開(公告)號: | CN107871078A | 公開(公告)日: | 2018-04-03 |
| 發明(設計)人: | 達小文;毛俐旻;吳明杰;溫泉;常承偉;陳志浩;謝梅 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 中國兵器工業集團公司專利中心11011 | 代理人: | 張然 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 文本 提取 漏洞 信息 方法 | ||
技術領域
本發明涉及網絡安全技術領域,特別涉及一種非結構化文本中提取漏洞信息的方法。
背景技術
隨著互聯網技術的飛速發展,Web信息已經發展成一個全球性、分布性和共享性的資源,其中包含了數以萬計的已經公布的安全漏洞信息,并且每天還在不斷更新。漏洞信息是眾多安全研究人員成果的體現,獲取更多新的漏洞信息使得在攻擊和防御方面變得更加主動,有效提高單位、企業乃至國家的網絡安全防護和反制能力。漏洞信息提取是指從Web頁面中抽取出指定的漏洞信息以形成結構化漏洞數據的過程。
當前漏洞信息的提取大多是從權威漏洞數據庫(結構化的文本信息)中提取,提取的漏洞信息過于陳舊,不能掌握最新的漏洞信息;二是單純從已知漏洞庫中提取信息意義不明顯,所提取的漏洞信息是已有漏洞庫的子集。通常,最新的漏洞信息會出現在安全廠商的公告、軟件廠商的修補公告、安全人員的博客及郵件列表中,這些信息通常以非結構化的文本段落展現,針對這些文本段落進行漏洞信息的提取可以獲取最新的漏洞信息,幫助完善自己構建的漏洞庫。
發明內容
本發明公開了一種非結構化文本中提取漏洞信息的方法,用于解決上述現有技術的問題。
本發明一種非結構化文本中提取漏洞信息的方法,其中,包括:建立漏洞領域概念表,漏洞領域概念表包括漏洞相關的詞匯;獲取漏洞信息文本;提取漏洞信息文本中的詞匯,將其與漏洞領域概念表進行比對,根據比對結構獲取漏洞信息。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,包括:對文本進行分詞處理,得到若干個詞匯,然后將詞匯依次與漏洞領域概念進行比對,當發現多個與漏洞領域概念相近的詞匯時,就認為該文本段描述的內容與漏洞有關。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,得到英語詞匯的方法包括:按照空格及標點符號分詞,當碰到一個空格或標點符號就分出一個詞;忽略對文本的特征沒有實質性的影響的修飾詞。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,得到中文詞匯的方法包括:將混雜的英文直接分離出來,分離出來的部分用空字符代替;通過中文詞匯庫依次向后查詢,選取首部兩個字作為一個詞匯,若中文詞匯庫中存在此詞匯,則將其作為分詞記錄下來,并嘗試向后推移一個字,若還是一個有意義的詞匯,則繼續往后推移,直到推移多個字組成的詞匯在中文詞匯庫中查詢不到時,將最長的詞匯作為一個分詞取出。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,還包括:建立一個句式庫,該句式庫包含英文和中文的漏洞相關的常用句式;將得到的詞匯的所對應的語句與句式庫中的語句進行匹配,如匹配成功,則根據句式查找其他漏洞屬性。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,包括:將一段文本當作一個字符串,將事先構建好的漏洞領域概念依次與文本字符串進行匹配,若發現與漏洞領域概念意思相近的詞匯就進行提取,并記錄該詞匯在原始文本中的位置,當提取一定數量的詞匯時,就認為該段文本描述的為漏洞有關信息。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,還包括:建立一個句式庫,該句式庫包含英文和中文常用句式;將詞匯的所對應的語句與句式庫中的語句進行匹配,如匹配成功,則根據句式查找其他漏洞屬性。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,還包括:獲取漏洞信息后,最后將提取的所有漏洞信息按照漏洞屬性存儲到數據庫中。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,獲取漏洞信息文本包括:安全公司網站、廠商網站、安全論壇和安全研究員博客的網站的URL,通過HTML解析各URL對應的網頁,過濾其中的圖片及樣式,提取頁面中的所有文本段落信息。。
根據本發明的非結構化文本中提取漏洞信息的方法的一實施例,其中,提取漏洞信息文本中的詞匯后,還將查找提取的詞匯的所對應的語句,分析語句的句式,根據句式查找漏洞信息。
綜上,本發明非結構化文本中提取漏洞信息的方法,能夠高效完善已構建的漏洞庫。
附圖說明
圖1所示為文本信息中提取漏洞信息方法的一實施例的示意圖;
圖2所示為文本信息中提取漏洞信息方法的另一實施例的示意圖;
圖3所示為本發明非結構化文本中提取漏洞信息的方法的流程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610857283.0/2.html,轉載請聲明來源鉆瓜專利網。





