[發(fā)明專利]一種基于大數(shù)據(jù)的漏洞采集系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210980438.5 | 申請日: | 2022-08-16 |
| 公開(公告)號: | CN115309731A | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 武建雙;劉洋;宋超 | 申請(專利權(quán))人: | 合肥天帷信息安全技術(shù)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28;G06K9/62 |
| 代理公司: | 合肥正則元起專利代理事務(wù)所(普通合伙) 34160 | 代理人: | 楊潤 |
| 地址: | 230000 安徽省合肥市高新區(qū)*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 漏洞 采集 系統(tǒng) | ||
本發(fā)明公開了一種基于大數(shù)據(jù)的漏洞采集系統(tǒng),包括:數(shù)據(jù)集抓取模塊,獲取一個(gè)采集周期內(nèi)的所有數(shù)據(jù)并生成數(shù)據(jù)集;數(shù)據(jù)預(yù)處理模塊,采集所述的元數(shù)據(jù)的特征詞條信息;初始分組搭建模塊,將數(shù)據(jù)集中元數(shù)據(jù)按照特征詞條信息的數(shù)量進(jìn)行排序,選取排序靠前的若干個(gè)元數(shù)據(jù)分別生成與其一一對應(yīng)的初始分組,并提取所述的初始分組內(nèi)的元數(shù)據(jù)的特征詞條信息作為初始分組的標(biāo)簽;數(shù)據(jù)分類模塊,調(diào)取數(shù)據(jù)集中初始元數(shù)據(jù)之外的元數(shù)據(jù),將所述的元數(shù)據(jù)劃分到不同初始分組中;數(shù)據(jù)篩選模塊,對同一處理組中的元數(shù)據(jù)進(jìn)行解析,并依次與初始元數(shù)據(jù)進(jìn)行比對。在大量的數(shù)據(jù)中完成對相以及系統(tǒng)數(shù)據(jù)的整合,從而解決的常規(guī)數(shù)據(jù)采集漏洞對計(jì)算機(jī)算力的影響。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)采集技術(shù)領(lǐng)域,具體涉及一種基于大數(shù)據(jù)的漏洞采集系統(tǒng)。
背景技術(shù)
大數(shù)據(jù),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。其具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
因此,對于數(shù)量龐大且紛雜的數(shù)據(jù)來說,內(nèi)部肯定含有大量內(nèi)容相似、相同甚至是殘缺的數(shù)據(jù),亦或者是某一分?jǐn)?shù)據(jù)的內(nèi)容被其他數(shù)據(jù)所涵蓋;對于這些數(shù)據(jù)來說,在某種意義來說可以被稱之為無用數(shù)據(jù),但是在大數(shù)據(jù)采集的過程中,對于這些數(shù)據(jù)并沒有辨識度;所以會造成無用數(shù)據(jù)也被錄入了數(shù)據(jù)庫中進(jìn)行保存,這部分?jǐn)?shù)據(jù)采集漏洞的存在會占用相當(dāng)一部分服務(wù)器的算力,并且也會讓用戶在調(diào)閱的時(shí)候需要重復(fù)查閱相同或相似內(nèi)容的數(shù)據(jù),影響用戶正常的數(shù)據(jù)調(diào)用。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的漏洞采集系統(tǒng),解決以下技術(shù)問題:
常規(guī)的大數(shù)據(jù)采集存在中無法識別相同或者相似度過高的數(shù)據(jù),從而額外占用了服務(wù)器的算力。
本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):
一種基于大數(shù)據(jù)的漏洞采集系統(tǒng),包括:
數(shù)據(jù)集抓取模塊,獲取一個(gè)采集周期內(nèi)的所有數(shù)據(jù)并生成數(shù)據(jù)集,所述的數(shù)據(jù)集內(nèi)部的各個(gè)元素定義為元數(shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,采集所述的元數(shù)據(jù)的特征詞條信息,所述的特征詞條信息為該元數(shù)據(jù)中出現(xiàn)次數(shù)超過所設(shè)定閾值的關(guān)鍵詞;
初始分組搭建模塊,將數(shù)據(jù)集中元數(shù)據(jù)按照特征詞條信息的數(shù)量進(jìn)行排序,選取排序靠前的若干個(gè)元數(shù)據(jù)分別生成與其一一對應(yīng)的初始分組,并提取所述的初始分組內(nèi)的元數(shù)據(jù)的特征詞條信息作為初始分組的標(biāo)簽,所述的元數(shù)據(jù)定義為初始元數(shù)據(jù);
數(shù)據(jù)分類模塊,調(diào)取數(shù)據(jù)集中初始元數(shù)據(jù)之外的元數(shù)據(jù),并按照元數(shù)據(jù)特征詞條信息與初始分組的標(biāo)簽的相似程度,將所述的元數(shù)據(jù)劃分到不同初始分組中,生成處理組;
數(shù)據(jù)篩選模塊,對同一處理組中的元數(shù)據(jù)進(jìn)行解析,并依次與初始元數(shù)據(jù)進(jìn)行比對,如果二者相似度超過所設(shè)定的最大閾值則僅保留所述的元數(shù)據(jù)中與初始元數(shù)據(jù)不同的信息并合并入所述的初始元數(shù)據(jù)中,完成對初始元數(shù)據(jù)的更新;如果二者相似度不超過所設(shè)定的最大閾值,則保留該元數(shù)據(jù)。
作為本發(fā)明進(jìn)一步的方案:在初始分組搭建模塊中,所生成的初始分組的數(shù)量由數(shù)據(jù)集決定,具體的步驟如下:
設(shè)定單一初始分組最大容量L和標(biāo)準(zhǔn)數(shù)據(jù)容量M;
獲取數(shù)據(jù)集的總數(shù)據(jù)容量N;
通過S=N/M計(jì)算出數(shù)據(jù)集中包含有的標(biāo)準(zhǔn)數(shù)據(jù)數(shù)量S;
通過K=L/S計(jì)算出初始分組的數(shù)量K。
作為本發(fā)明進(jìn)一步的方案:在生成初始分組,并選取排序靠前的K個(gè)元數(shù)據(jù)的過程中,如果存在任意兩個(gè)元數(shù)據(jù)的特征詞條信息的相似度超過設(shè)定的閾值時(shí),則判定排序較低的元數(shù)據(jù)為無效元數(shù)據(jù);則重新選取新的元數(shù)據(jù)代替所述的無效元數(shù)據(jù),并且重新選取的元數(shù)據(jù)是排序除已選取的元數(shù)據(jù)之外排序最靠前的元數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥天帷信息安全技術(shù)有限公司,未經(jīng)合肥天帷信息安全技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210980438.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 網(wǎng)站漏洞告警方法及裝置
- 網(wǎng)站漏洞審核方法及裝置
- 漏洞檢測方法及裝置、信息交互方法及設(shè)備
- 一種基于漏洞關(guān)聯(lián)分布模型的漏洞發(fā)現(xiàn)方法
- 漏洞庫構(gòu)建方法、裝置、漏洞庫及計(jì)算機(jī)可讀存儲介質(zhì)
- 漏洞快速感知、定位及驗(yàn)證的方法與系統(tǒng)
- 一種基于Oval的漏洞掃描修復(fù)系統(tǒng)及方法
- 一種漏洞驗(yàn)證的方法及電子設(shè)備
- 一種漏洞防護(hù)方法、裝置及電子設(shè)備
- 漏洞數(shù)據(jù)的比較方法、裝置、電子設(shè)備以及存儲介質(zhì)





