[發明專利]軟件基因視角下多粒度信息融合的二進制代碼溯源方法有效
| 申請號: | 202110656320.2 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113536308B | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 劉福東;黃一釗;張春燕;單征;桂海仁;喬猛;熊其冰;唐柯;徐戀秋;宋智輝 | 申請(專利權)人: | 中國人民解放軍戰略支援部隊信息工程大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F8/53;G06F16/28;G06N3/04;G06N3/08 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 張立強 |
| 地址: | 450000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 軟件 基因 視角 粒度 信息 融合 二進制 代碼 溯源 方法 | ||
1.一種軟件基因視角下多粒度信息融合的二進制代碼溯源方法,其特征在于,包括:
步驟1:提取目標程序的軟件基因序列、軟件基因、軟件基因圖及從IDA直接可提取的常用信息至sqlite數據庫;所述從IDA直接可提取的常用信息包括:通過IDA提取的正常指令序列、基本塊、以及控制流圖和程序調用圖的信息;
步驟2:將sqlite數據庫中的軟件基因序列使用詞嵌入之后再進行雙向GRU模型的訓練,得到特征向量;
所述步驟2中詞嵌入過程包括:
首先將單詞轉成字典的形式,直接建立詞典索引結構,使用一句話看成一個單詞的形式,然后再以句子為列,為每個句子建立索引結果,接下來進行padding操作,然后再進行詞的初始化;
步驟3:基于步驟2訓練后得到的特征向量及sqlite數據庫中的信息進行多粒度序列信息融合,得到包含多粒度信息的特征向量,然后通過圖卷積進行結構化學習;
所述步驟3中,多粒度序列信息融合過程包括:
通過字典的最大長度進行從下標1開始的遍歷,通過字典中的鍵值對查找到軟件基因所對應的向量維度,然后通過搜索函數在序列向量中找到所對應的向量維度,并且通過向量疊加的方式將其信息進行融合,最后通過拼接將提取出來的各個向量整合在一起,得到包含多粒度信息的特征向量;
步驟4:通過全連接層將學習到的隱層空間特征向量表示映射到樣本標記空間,作為判決的投票值,最終得出分類結果。
2.根據權利要求1所述的軟件基因視角下多粒度信息融合的二進制代碼溯源方法,其特征在于,所述提取目標程序的軟件基因序列、軟件基因、軟件基因圖包括:
在提取二進制控制流語義的開始對二進制代碼進行軟件基因序列程序切分,并將其一維二進制代碼序列根據控制流關系轉化為軟件基因圖。
3.根據權利要求2所述的軟件基因視角下多粒度信息融合的二進制代碼溯源方法,其特征在于,所述軟件基因序列程序切分包括:
將分支指令作為軟件基因的劃分邊界,并記錄切分、調用、回調關系以構成流路并最終生成軟件基因圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍戰略支援部隊信息工程大學,未經中國人民解放軍戰略支援部隊信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110656320.2/1.html,轉載請聲明來源鉆瓜專利網。





