[發明專利]一種基于深度學習的無符號二進制間接控制流識別方法有效
申請號: | 202110363702.6 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113204764B | 公開(公告)日: | 2022-05-17 |
發明(設計)人: | 王鵑;王蘊茹;楊夢達;王杰;鐘璟 | 申請(專利權)人: | 武漢大學 |
主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F8/41;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 深度 學習 符號 二進制 間接 控制 識別 方法 | ||
本發明涉及一種基于深度學習的無符號二進制間接控制流識別方法,通過深度學習識別二進制中間接跳轉指令的目標基本塊。本發明基于二進制代碼文件中的指令、基本塊和函數代碼塊,構建間接調用分支和函數序列,以構建間接跳轉及間接調用的三元組樣本,生成間接跳轉訓練集、間接調用訓練集;分別構建神經網絡間接跳轉和間接調用目標識別分類模型,分別構建神經網絡間接跳轉和間接調用目標識別分類損失函數模型;將待檢測的二進制文件通過預處理,針對間接跳轉和間接調用指令生成間接跳轉和間接調用樣本,通過神經網絡間接跳轉和間接調用目標識別分類損失函數模型進行目標識別,通過分類結果復原間接控制流目標。本發明提高了識別的正確率。
技術領域
本發明屬于軟件分析技術領域,特別是涉及一種基于深度學習的無符號二進制間接控制流識別方法。
背景技術
從無符號信息的二進制文件中重構控制流圖是軟件分析中許多問題的先決基礎,如反匯編中的指令識別和函數識別。除此之外,二進制層面的控制流圖重構在控制流完整性研究、惡意軟件分類和溯源等問題上也具有重要作用。通常,在二進制中靜態重構控制流圖是一個遞歸的過程,然而,該過程往往受阻于間接控制流。對于直接控制流而言,跳轉/調用指令的操作數即為控制流中指令的目標地址;而對于間接分支而言,對應指令的操作數往往是保存了目標地址的寄存器或內存單元,故而間接控制流的目標難以靜態確定。鑒于動態分析方法覆蓋率低、處理效率低等弊端,從無符號信息的二進制中靜態識別間接控制流成為亟需解決的難題。
已有的二進制分析工具通常采用不同的技術手段處理間接跳轉和間接調用。間接跳轉主要包括跳轉表(由switch-case和if-else編譯得到)。現有的跳轉表靜態處理方法可劃分為a)基于反向切片和模式匹配的啟發式方法,以及b)數據流分析或值集分析(VSA)等深度分析技術。啟發式方法通過搜尋特定的模式以確定跳轉表的基地址和索引的邊界,從而確定跳轉表的目標基本塊。但是,基于模式匹配的方法在不同的編譯器和體系架構下需人為設定不同的模式,故而缺乏可擴展性。深度分析技術可以保留一定的語義信息以提高識別精度,但是該類方法的計算成本較高,故而難以應用于大型的應用程序。對于間接調用而言,目前仍缺乏有效的二進制層面的靜態分析手段。間接調用主要由函數指針和虛函數編譯得到,該類函數用于實現程序的動態行為。主流分析工具通常使用常量傳播技術以解析間接調用的目標。即,當一個常量流向一個間接調用指令時,該常量則被視作對應間接調用指令的一個目標。然而,通過該方法只能識別出少量間接調用的目標函數。
鑒于此,本發明擬通過構建基于語義的二進制間接控制流識別方案,從而解決無符號信息的二進制中間接控制流指令的目標難以靜態獲取的問題。本發明利用間接跳轉(調用)的源與目標之間的語義關聯,基于深度學習方法,對間接控制流的目標進行自動識別。此外,本發明中的框架無需對間接跳轉和間接調用采取不同的技術手段進行處理,在間接跳轉方面,可達到與主流二進制分析工具相似的準確度,而本方法可以大幅度提高間接調用的目標函數識別的準確度,從而解決目前無可行方法靜態獲取二進制中間接調用目標的問題。
發明內容
針對上述問題,本發明提出一種基于深度學習的無符號二進制間接控制流識別方法。該方法通過采集二進制中各字節間的語義信息,基于間接控制流源和目標之間的上下文關聯,構建了以深度學習為中心的二進制間接控制流目標識別方案,具體步驟如下:
步驟1:引入原始二進制代碼文件,原始二進制代碼文件中多個字節構成多個指令代碼塊,多個指令代碼塊構成多個基本塊代碼塊,多個基本塊代碼塊構成多個函數代碼塊,根據基本塊代碼塊和函數代碼塊構建間接調用分支和函數序列,并進一步構建間接跳轉的三元組樣本、間接調用的三元組樣本,對間接跳轉的三元組樣本和間接調用的三元組樣本分別進行標記,生成間接跳轉訓練集、間接調用訓練集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110363702.6/2.html,轉載請聲明來源鉆瓜專利網。