[發(fā)明專利]一種基于大數(shù)據(jù)的網(wǎng)頁資產(chǎn)指紋標(biāo)簽識(shí)別與發(fā)現(xiàn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110611576.1 | 申請(qǐng)日: | 2021-06-02 |
| 公開(公告)號(hào): | CN113259467B | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計(jì))人: | 武斐;管越;虞雁群;吳艷;單易;劉彥伸;郭銀鋒 | 申請(qǐng)(專利權(quán))人: | 浙江御安信息技術(shù)有限公司 |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;H04L12/26;G06F16/182;G06F16/23;G06F16/2458 |
| 代理公司: | 杭州中港知識(shí)產(chǎn)權(quán)代理有限公司 33353 | 代理人: | 施建勇 |
| 地址: | 310000 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 網(wǎng)頁 資產(chǎn) 指紋 標(biāo)簽 識(shí)別 發(fā)現(xiàn) 方法 | ||
1.一種基于大數(shù)據(jù)的網(wǎng)頁資產(chǎn)指紋標(biāo)簽識(shí)別與發(fā)現(xiàn)方法,其特征在于,包括以下步驟:
步驟S1,選擇一個(gè)要掃描的目標(biāo)IP:
每次掃描需要制定一個(gè)掃描的目標(biāo)IP;
步驟S2,對(duì)目標(biāo)IP進(jìn)行掃描,確保目標(biāo)IP存活:
通過ping掃描,向目標(biāo)IP發(fā)送ICMP信息報(bào)文,若目標(biāo)IP回應(yīng)ICMP報(bào)文,則判斷目標(biāo)IP存活;若無回應(yīng)則判斷目標(biāo)IP下線,掃描結(jié)束;
判斷目標(biāo)IP存活后,對(duì)于存活的目標(biāo)IP進(jìn)行端口掃描,監(jiān)聽返回報(bào)文從而識(shí)別開放端口并獲取開放端口回報(bào)的報(bào)文;
步驟S3,解析資產(chǎn)詳情:
將從存活的目標(biāo)IP處獲取的開放端口回報(bào)的報(bào)文,與存放一系列已知報(bào)文所對(duì)應(yīng)資產(chǎn)詳情內(nèi)容的文件進(jìn)行正則匹配:若兩者匹配成功,則獲得資產(chǎn)詳情,并等待步驟S5的存儲(chǔ);
步驟S4,解析網(wǎng)頁資產(chǎn):
識(shí)別并獲取步驟S3中的資產(chǎn)詳情中屬于http或https的服務(wù),進(jìn)行http或者h(yuǎn)ttps請(qǐng)求,獲取字段內(nèi)容列表;
字段內(nèi)容列表與該網(wǎng)頁網(wǎng)址形成一個(gè)初步的網(wǎng)頁資產(chǎn);將字段內(nèi)容列表與指紋標(biāo)簽庫中的內(nèi)容進(jìn)行一個(gè)或多個(gè)指紋的正則匹配;若存在有匹配到的標(biāo)簽,則對(duì)該網(wǎng)頁資產(chǎn)增加這個(gè)標(biāo)簽信息;
步驟S5,將步驟S3中的資產(chǎn)詳情和步驟S4中的網(wǎng)頁資產(chǎn)合并整理成資產(chǎn)數(shù)據(jù)集,并將資產(chǎn)數(shù)據(jù)集均存儲(chǔ)在MySQL中和ElasticSearch中;MySQL作為資產(chǎn)管理平臺(tái)的數(shù)據(jù)庫得到了數(shù)據(jù)的更新;
步驟S6,通過Flume將ElasticSearch中存儲(chǔ)的網(wǎng)頁資產(chǎn)傳輸?shù)紿DFS中;
步驟S7,利用Hive對(duì)Flume提取到HDFS的數(shù)據(jù)進(jìn)行分析計(jì)算;在當(dāng)天網(wǎng)頁資產(chǎn)提取到的數(shù)據(jù)中找出不存在于指紋標(biāo)簽庫的數(shù)據(jù),如果該數(shù)據(jù)重復(fù)出現(xiàn)的次數(shù)到達(dá)預(yù)定值,那么將這條數(shù)據(jù)定義為一個(gè)新指紋標(biāo)簽;用Hive建一張all_tables分區(qū)表,以天為分區(qū),每個(gè)分區(qū)存儲(chǔ)當(dāng)天所有被認(rèn)為是新發(fā)現(xiàn)的指紋標(biāo)簽的數(shù)據(jù);
步驟S8,DataX將all_tables中當(dāng)天的數(shù)據(jù)同步到指紋標(biāo)簽庫中,即,將定義為新指紋標(biāo)簽的數(shù)據(jù)追加到指紋標(biāo)簽庫中。
2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁資產(chǎn)指紋標(biāo)簽識(shí)別與發(fā)現(xiàn)方法,其特征在于,步驟S3中,資產(chǎn)詳情包括但不限于:服務(wù)名稱、服務(wù)產(chǎn)品名稱、制造商、服務(wù)版本。
3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁資產(chǎn)指紋標(biāo)簽識(shí)別與發(fā)現(xiàn)方法,其特征在于,步驟S4中,字段內(nèi)容列表包括:響應(yīng)頭、響應(yīng)頭中的cookie內(nèi)容、網(wǎng)頁正文的meta內(nèi)容、網(wǎng)頁正文引用的script內(nèi)容、網(wǎng)頁加載的js使用的方法名。
4.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的網(wǎng)頁資產(chǎn)指紋標(biāo)簽識(shí)別與發(fā)現(xiàn)方法,其特征在于,步驟S6包括以下步驟:
步驟S6a,為該Flume進(jìn)程設(shè)置一個(gè)攔截器,將網(wǎng)頁資產(chǎn)中可以用來判斷是否是新的指紋標(biāo)簽的字段提取出來,這類字段有headers、meta、scripts、js、title、cookies;
攔截器的清洗邏輯是對(duì)meta、scripts、title標(biāo)簽名使用正則表達(dá)式進(jìn)行提取獲得;對(duì)headers的提取是過濾通用header,保留剩余的header的key值和value值;對(duì)cookies的提取是通過分割headers中的set-cookie值而得;對(duì)js的提取是通過分析js文件提取方法名獲得;
步驟S6b,然后利用Flume的多路復(fù)用功能將headers、meta、scripts、js、title、cookies六種字段分別發(fā)送到HDFS下/webdata/headers、/webdata/meta、/webdata/scripts、/webdata/js、/webdata/title和/webdata/cookies六個(gè)目錄下。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江御安信息技術(shù)有限公司,未經(jīng)浙江御安信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110611576.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種帳戶信息資產(chǎn)管理系統(tǒng)及其方法
- 基于物聯(lián)網(wǎng)的醫(yī)院固定資產(chǎn)管理系統(tǒng)
- 區(qū)塊鏈資產(chǎn)管理方法及裝置
- 將托管登記的鏈下資產(chǎn)發(fā)布為鏈上數(shù)字資產(chǎn)的系統(tǒng)和方法
- 基于區(qū)塊鏈的資產(chǎn)溯源方法及裝置、電子設(shè)備
- 基于區(qū)塊鏈的資產(chǎn)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈的資產(chǎn)管理方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的資產(chǎn)管理方法、裝置及電子設(shè)備
- 數(shù)據(jù)處理的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 區(qū)塊鏈資產(chǎn)檢測(cè)錄入評(píng)估系統(tǒng)





