[發明專利]一種基于深度學習的無符號二進制間接控制流識別方法有效

申請號：	202110363702.6	申請日：	2021-04-02
公開（公告）號：	CN113204764B	公開（公告）日：	2022-05-17
發明（設計）人：	王鵑;王蘊茹;楊夢達;王杰;鐘璟	申請（專利權）人：	武漢大學
主分類號：	G06F21/56	分類號：	G06F21/56;G06F8/41;G06K9/62;G06N3/04;G06N3/08
代理公司：	武漢科皓知識產權代理事務所(特殊普通合伙) 42222	代理人：	許蓮英
地址：	430072 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度學習符號二進制間接控制識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于深度學習的無符號二進制間接控制流識別方法，其特征在于，包括以下步驟：

步驟1：引入原始二進制代碼文件，原始二進制代碼文件中多個字節構成多個指令代碼塊，多個指令代碼塊構成多個基本塊代碼塊，多個基本塊代碼塊構成多個函數代碼塊，根據基本塊代碼塊和函數代碼塊構建間接調用分支和函數序列，并進一步構建間接跳轉的三元組樣本、間接調用的三元組樣本，對間接跳轉的三元組樣本和間接調用的三元組樣本分別進行標記，生成間接跳轉訓練集、間接調用訓練集；

步驟2：構建神經網絡間接跳轉目標識別分類模型，將間接跳轉訓練集中每個間接跳轉的三元組樣本依次輸入神經網絡間接跳轉目標識別分類模型，進一步分類得到對應的三元組樣本預測結果，進一步結合間接跳轉樣本標簽和分類模型的預測標簽構建神經網絡間接跳轉目標識別分類損失函數模型，通過優化訓練得到網絡的尋優化參數集，根據網絡尋優化參數集構建訓練后神經網絡間接跳轉目標識別分類模型；構建神經網絡間接調用目標識別分類模型，將間接調用訓練集中每個間接調用的三元組樣本依次輸入神經網絡間接調用目標識別分類模型，進一步分類得到對應的三元組樣本預測結果，進一步結合間接調用樣本標簽和分類模型預測的標簽建神經網絡間接調用目標識別分類損失函數模型，通過優化訓練得到網絡的尋優化參數集，根據網絡尋優化參數集構建訓練后神經網絡間接調用目標識別分類模型；

步驟3：將待檢測的二進制文件通過步驟1提取待檢測的二進制中指令代碼塊、待檢測的二進制中基本塊代碼塊、待檢測的二進制中函數代碼塊，對于待檢測的二進制中指令代碼塊，判別是否為間接跳轉指令代碼塊或間接調用指令代碼塊。

2.根據權利要求1所述的基于深度學習的無符號二進制間接控制流識別方法，其特征在于，

步驟1所述原始二進制代碼文件為：

text_i＝{c_i,1,c_i,2,...,c_i,L}

i∈[1,K]

其中，text_i表示第i個原始二進制代碼文件，K表示原始二進制代碼文件的數量，L表示第i個原始二進制代碼文件中字節的數量，c_i,j表示第i個原始二進制代碼文件中第j個字節，j∈[1,L]；

步驟1所述原始二進制代碼文件中多個字節構成多個指令代碼塊具體表示為：

Ins_i,k＝{c_{i,sins_k},c_{i,sins_k+1},...,c_{i,sins_k+nins_k-1}}

k∈[1,N_ins]

其中，Ins_i,k表示第i個原始二進制代碼文件中第k個指令代碼塊，N_ins表示第i個原始二進制代碼文件中指令代碼塊的數量，sins_k為第k個指令代碼塊起始的字節的下標，nins_k表示第k個指令代碼塊中字節的數量，c_{i,sins_k+j}表示第i個原始二進制代碼文件中第k個指令代碼塊中第sins_k+j+1個字節，j∈[0,nins_k-1]；

步驟1所述多個指令代碼塊構成多個基本塊代碼塊具體表示為：

B_i,m＝{Ins_{i,sbb_m},Ins_{i,sbb_m+1},...,Ins_{i,sbb_m+nbb_m-1}}

m∈[1,N_bb]

其中，B_i,m表示第i個原始二進制代碼文件中第m個基本塊代碼塊，N_bb表示第i個原始二進制代碼文件中基本塊代碼塊的數量，sbb_m為第m個基本塊代碼塊起始的指令代碼塊的下標，nbb_m表示第m個基本塊代碼塊中指令代碼塊的數量，Ins_{i,sbb_m+j}表示第i個原始二進制代碼文件中第m個基本塊代碼塊中第sbb_m+j+1個指令代碼塊，j∈[0,nbb_m-1]；

步驟1所述多個基本塊代碼塊構成多個函數代碼塊的具體表示為：

F_i,n＝{B_{i,sfunc_n},B_{i,sfunc_n+1},...,B_{i,sfunc_n+nfunc_n-1}}

n∈[1,N_func]

其中，F_i,n表示第i個原始二進制代碼文件中第n個函數代碼塊，N_func表示第i個原始二進制代碼文件中函數代碼塊的數量，sfunc_n為第n個函數代碼塊起始的基本塊代碼塊的下標，nfunc_n表示第n個函數代碼塊中基本塊代碼塊的數量，B_{i,sfunc_n+j}表示第i個原始二進制代碼文件中第n個函數代碼塊中第sfunc_n+j+1個基本塊代碼塊，j∈[0,nfunc_n-1]；

步驟1所述根據基本塊代碼塊和函數代碼塊構建間接調用分支和函數序列為：

所述間接調用分支：

Br_i,m＝{B_{i,entry_m},e,B_{i,entry_m+1},...,e,B_{i,call_m}}

m∈[1,N_call]

其中，Br_i,m為第i個原始二進制代碼文件中第m個間接調用指令代碼塊所在的間接調用分支序列，N_call表示第i個原始二進制代碼文件中間接調用指令代碼塊的數量，entry_m為第m個間接調用分支序列的入口基本塊的下標，entry_m+1為B_{i,entry_m}的后繼基本塊代碼塊的下標，call_m為第m個間接調用指令代碼塊所在基本塊代碼塊的下標；

所述函數序列：

Fs_i,n＝{B_{i,sfunc_n},e,B_{i,sfunc_n+1},...,e,B_{i,sfunc_n+nfunc_n-1}}

n∈[1,N_func]

其中，Fs_i,n為函數F_i,n對應的函數序列，e為函數內部的控制流；

步驟1所述進一步構建間接跳轉的三元組樣本為：

Jdata_i,k＝(B_i,m,e,B_i,n)

k∈[1,N_{data_jmp}]

其中，Jdata_i,k表示第i個原始二進制代碼文件生成的第k個間接跳轉數據樣本，即第i個原始二進制代碼文件中第k個跳轉表對應的樣本，N_{data_jmp}表示第i個原始二進制代碼文件中間接跳轉樣本的數量，e表示函數代碼塊內部的控制流，B_i,m為第k個跳轉表中間接跳轉指令代碼塊所在的基本塊代碼塊，B_i,n為第k個跳轉表所在函數代碼塊中除B_i,m的任一基本塊代碼塊，即假設B_i,m∈F_i,l，則B_i,n∈F_i,l-{B_i,m}，m,n∈[1,N_bb]；

上述Jdata_i,k對應的第k個跳轉表的構成為：

JTable_i,k＝{B_i,m:{B_{i,sjt_k},B_{i,sjt_k+1},...,B_{i,sjt_k+njt_k-1}}}

其中，sjt_k為第k個跳轉表起始的基本塊代碼塊的下標，njt_k表示第k個跳轉表中跳轉條目的數量，B_{i,sjt_k+j}表示第i個原始二進制代碼文件中第k個跳轉表中第sjt_k+j+1個跳轉條目，j∈[0,njt_k-1]；

步驟1所述進一步構建間接調用的三元組樣本為：

Cdata_i,k＝(Br_i,k,E,Fs_i,n)

k∈[1,N_{data_call}]

其中，Cdata_i,k表示第i個原始二進制代碼文件生成的第k個間接調用數據樣本，即第i個原始二進制代碼文件中第k個間接調用指令代碼塊對應的樣本，假設為Ins_i,l，N_{data_call}表示第i個原始二進制代碼文件中間接調用樣本的數量，E表示函數代碼塊之間的控制流，Br_i,k為第i個原始二進制代碼文件中第k個間接調用指令代碼塊Ins_i,l所在的間接調用分支，基于寬度優先搜索算法構造Br_i,k；Fs_i,n為第i個原始二進制代碼文件中的第n個函數F_i,n對應的函數序列，F_i,n為所在二進制代碼內任意address-taken函數；

定義CTarget(Ins_i,l)為Ins_i,l實際調用的函數代碼塊列表，即：

CTarget(Ins_i,l)＝{F_i,ct1,F_i,ct2,...,F_i,ctn}

其中，F_i,ct1,F_i,ct2,...,F_i,ctn為Ins_i,l的實際目標函數；

步驟1所述對間接跳轉的三元組樣本和間接調用的三元組樣本分別進行標記，生成間接跳轉訓練集、間接調用訓練集為：

對于間接跳轉的三元組樣本即Jdata_i,k＝(B_i,m,e,B_i,n)：

若B_i,n∈JTable_i,k[B_i,m]，則Jdata_i,k的標簽標記為Jlabel_{i_k,1}，反之為Jlabel_{i_k,0}；

對于間接調用的三元組樣本即Cdata_i,k＝(Br_i,k,E,Fs_i,n)：

若F_i,n∈CTarget(Ins_i,l)，則該樣本標記為Clabel_{i_k,1}，反之為Clabel_{i_k,0}；

步驟1所述生成間接跳轉訓練集，即：

JDATA＝{(Jdata_1,1,Jlabel_{1_1,k1}),(Jdata_1,2,Jlabel_{1_2,k2}),......,(Jdata_{K,Ndata_jmp_k},Jlabel_{K_Ndata_jmp_k,kNjmp})}

其中，JDATA為間接跳轉訓練集，(Jdata_1,1,Jlabel_{1_1,k1})為數據集中的第一個樣本，如前所述，Jdata_1,1為第1個原始二進制代碼文件中的第1個樣本，Jlabel_{1_1,k1}為Jdata_1,1的標簽，k1的取值為0或1；(Jdata_i,j,Jlabel_{i_j,km})為數據集中第m個樣本，Jdata_i,j為第i個原始二進制代碼文件中的第j個樣本，Jlabel_{i_j,km}為其對應的標簽，m為該樣本在數據集中的下標，其中，i∈[1,K]，j∈[1,N_{data_jmp_i}]，K為原始二進制代碼文件的數量，N_{data_jmp_i}表示第i個二進制的間接跳轉樣本總個數，N_jmp為間接跳轉訓練集中的樣本總數；

步驟1所述生成間接調用訓練集，即：

CDATA＝{(Cdata_1,1,Clabel_{1_1,k1}),(Cdata_1,2,Clabel_{1_2,k2}),......,(Cdata_{K,Ndata_call_k},Clabel_{K_Ndata_call_k,kNcall})}

其中，CDATA為間接調用訓練集，(Cdata_1,1,Clabel_{1_1,k1})為數據集中的第一個樣本，如前所述，Cdata_1,1為第1個原始二進制代碼文件中的第1個樣本，Clabel_{1_1,k1}為Cdata_1,1的標簽，k1的取值為0或1；(Cdata_i,j,Clabel_{i_j,km})為數據集中第m個樣本，Cdata_i,j為第i個原始二進制代碼文件中的第j個樣本，Clabel_{i_j,km}為其對應的標簽，m為該樣本在數據集中的下標，其中，i∈[1,K]，j∈[1,N_{data_call_i}]，K為原始二進制代碼文件的數量，N_{data_call_i}表示第i個二進制的間接跳轉樣本總個數，Ncall為間接跳轉訓練集中的樣本總數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于武漢大學，未經武漢大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110363702.6/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種基于業務流程模型的微服務設計方法及系統
下一篇：一種提示消息的顯示方法及電子設備

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F21-00 防止未授權行為的保護計算機或計算機系統的安全裝置
G06F21-02 .通過保護計算機的特定內部部件
G06F21-04 .通過保護特定的外圍設備，如鍵盤或顯示器
G06F21-06 .通過感知越權操作或外圍侵擾
G06F21-20 .通過限制訪問計算機系統或計算機網絡中的節點
G06F21-22 .通過限制訪問或處理程序或過程

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]一種基于深度學習的無符號二進制間接控制流識別方法有效

專利文獻下載