[發明專利]數據處理方法、數據處理裝置和計算機可讀存儲介質有效
| 申請號: | 201811243754.4 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN110210222B | 公開(公告)日: | 2023-01-31 |
| 發明(設計)人: | 魏向前;李成俊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F21/55 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 張曉明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 可讀 存儲 介質 | ||
本公開提供了一種用于獲取同源數據的數據處理方法、裝置和計算機可讀存儲介質。該數據處理方法包括:獲取源數據的多條源特征信息;獲取與多條源特征信息的每一條具有直接或間接相關性的多條相關特征信息,生成相關特征信息集;獲取多條源特征信息和相關特征信息集中的每一條之間的相似度;以及確定與源數據的標識信息的相似度大于預定相似度閾值的一條或多條相關標識信息,與一條或多條相關標識信息對應的一條或多條數據為源數據的同源數據。本公開基于源數據的標識信息、靜態信息以及動態行為信息執行源數據特征的關聯擴散,最終獲取在靜態信息和行為信息上都與源數據滿足相似度要求的同源數據,實現了高效和準確的同源數據挖掘。
技術領域
本公開涉及數據處理領域,更具體地,本公開涉及一種用于獲取同源數據的數據處理方法、數據處理裝置和計算機可讀存儲介質。
背景技術
隨著互聯網和大數據技術的飛速發展,數據呈爆炸性增長,人類已經從信息時代步入大數據時代。在大數據時代,針對數據來源的分析與溯源,對于數據的利用和數據的安全有著至關重要的意義。
例如,在涉及信息安全的應用場景中,當出現潛在的或者正在進行惡意攻擊的數據(諸如,惡意代碼或者木馬程序)時,需要對該數據的來源進行分析與挖掘,以便及時發現源自同一來源(即,攻擊者)的其他惡意的同源數據。當前,針對惡意數據的同源數據的挖掘通常依賴于基于逆向工程的非自動化手段。先根據源數據訪問的域名或IP地址找到訪問該域名或IP的其他數據,對源數據和其他數據的消息摘要算法(md5)信息進行逆向工程,分析其在文件名、代碼段、變量命名等方面的相似度。最終根據md5的相似度,確定可能的同源數據。這樣的同源數據挖掘方法僅僅依賴于源數據的md5的靜態信息,自動化程序低、計算量大、并且難以找出與源數據具有深層次關聯的同源數據。
發明內容
鑒于上述問題而提出了本公開。本公開提供了一種用于獲取同源數據的數據處理方法、數據處理裝置和計算機可讀存儲介質。
根據本公開的一個方面,提供了一種數據處理方法,包括:獲取源數據的多條源特征信息;獲取與所述多條源特征信息的每一條具有直接或間接相關性的多條相關特征信息,生成相關特征信息集;獲取所述多條源特征信息的每一條和所述相關特征信息集中的每一條之間的相似度,所述源特征信息包括所述源數據的標識信息、靜態信息以及動態行為信息,并且所述相關特征信息包括相關數據的相關標識信息、相關靜態信息以及相關動態行為信息;以及確定與所述源數據的標識信息的相似度大于預定相似度閾值的一條或多條相關標識信息,與所述一條或多條相關標識信息對應的一條或多條相關數據為所述源數據的同源數據。
此外,根據本公開的一個方面的數據處理方法,其中,所述獲取源數據的多條源特征信息包括:獲取所述源數據經由散列處理后生成的散列值作為所述標識信息;分析所述源數據的程序數據庫文件和讀寫機制,獲取所述靜態信息;以及監測所述源數據的網絡訪問行為,獲取所述動態行為信息。
此外,根據本公開的一個方面的數據處理方法,其中,所述獲取與所述多條源特征信息的每一條具有相關性的多條相關特征信息包括:以所述源數據的標識信息作為根節點,并且以所述源數據的靜態信息以及動態行為信息的每一條作為第1層節點,從所述第1層節點起,獲取與第(N-1)層節點中的一個節點具有相關性的相關特征信息作為第N層節點中的一個節點,N為大于等于2的預定層數閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811243754.4/2.html,轉載請聲明來源鉆瓜專利網。





