[發明專利]一種抗編譯差異的二進制代碼相似性比較技術在審
| 申請號: | 202011117765.5 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN113010209A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 劉嘉勇;王炎;賈鵬 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F8/75 | 分類號: | G06F8/75;G06F8/41;G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 編譯 差異 二進制 代碼 相似性 比較 技術 | ||
1.一種抗編譯差異的二進制代碼相似性比較技術,其特征在于,所訴方法包括以下步驟:
A、對二進制文件進行反匯編,構建二進制函數屬性控制流圖,提取基本塊的語法、語義信息;
B、構建基本塊嵌入向量生成模型,將提取的基本塊語法、語義信息轉換為數值向量;
C、利用圖嵌入網絡分別針對函數的語法屬性控制流圖、語義屬性控制流圖進行訓練,生成函數語法圖嵌入向量和函數語義圖嵌入向量;
D、利用注意力機制聚合函數的語法圖嵌入向量和語義圖嵌入向量以生成最終的函數圖嵌入;
E、基于生成的圖嵌入向量,進行函數間的相似性檢測。
2.根據權利要求1所述的一種抗編譯差異的二進制代碼相似性比較技術,其特征在于,所述的步驟A進一步包括如下步驟:
A1、所提取的語法特征包含8種:常數的個數、字符串的個數、轉移指令的個數、調用指令的個數、基本塊指令的個數、算數指令的個數、后繼節點個數、介數中心性;
A2、所提取的語義特征為函數的匯編指令。
3.根據權利要求2所述的一種抗編譯差異的二進制代碼相似性比較技術,所述的步驟A2中提取的匯編指令還需要經過以下歸一化處理:
A21、如果指令的操作數屬于寄存器類型,根據寄存器占的大小分別歸一化為“reg1”、“reg2”、“reg3”、“reg4”;
A22、如果指令的操作數屬于立即數類型,則根據這個立即數是否屬于字符串,如果屬于,則用“STR”表示,否則用“HIMM”表示;
A23、如果操作數屬于存儲器類型,判斷操作數是否基于基址尋址,如果不是則用“[MEM]”代替操作數,如果是基于基址且未結合索引尋址,則用“[“歸一化的寄存器” +HIMM]”表示,否則用“[“歸一化的寄存器” + index * HIMM + HIMM]”表示。
4.根據權利要求1所述的一種抗編譯差異的二進制代碼相似性比較技術,其特征在于,所述的步驟B進一步包括如下步驟:
B1、統計函數中每個基本塊中對應的8種語法特征的數量,將這些數值直接組合為一個向量來表示基本塊的語法向量;
B2、通過在函數間控制流圖進行隨機化游走,基于游走路徑將歸一化后的匯編指令轉換為token詞庫,然后將整個二進制程序作為一個文檔進行詞向量訓練;
B3、將操作碼toekn向量乘以統計的詞頻-逆文本頻率指數(TF-IDF)參數,然后加上操作數token向量的平均值則得到每條匯編指令的向量表示;
B4、將基本塊中得到的每條匯編指令的向量通過注意力機制聚合得到基本塊的語義向量表示。
5.根據權利要求1所述的一種抗編譯差異的二進制代碼相似性比較技術,其特征在于,所述的步驟C進一步包括如下步驟:
C1、將B1生成的每個基本塊的語法向量作為控制流圖的屬性構建語法屬性控制流圖,將語法控制流圖作為輸入,利用Struc2vec圖嵌入網絡訓練模型,在節點聚合時采用注意力機制進行聚合;
C2、將B4生成的每個基本塊的語義向量作為控制流圖的屬性構建語義控制流圖,將語義控制流圖作為輸入,利用Struc2vec圖嵌入網絡訓練模型,在節點聚合時采用注意力機制進行聚合。
6.根據權利要求1所述的一種抗編譯差異的二進制代碼相似性比較技術,其特征在于,所述的步驟D進一步包括如下步驟:
D1、將生成的函數語法圖嵌入向量和函數語義圖嵌入向量進行拼接以訓練注意力參數;
D2、將訓練的注意力參數分別乗上對應的圖嵌入向量進行聚合生成最終的函數圖嵌入向量。
7.根據權利要求1所述的一種抗編譯差異的二進制代碼相似性比較技術,其特征在于,所述的步驟E具體如下所示:
E1、將我們所提出的圖嵌入網絡與Siamese網絡結合,輸入為成對的形式,模型中包含兩個相同網絡結構,但是共享同樣的參數;
E2、利用余弦相似性計算兩個圖嵌入向量的距離得到函數之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011117765.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理系統、家電設備、以及程序
- 下一篇:植物栽培裝置、植物栽培方法





