[發(fā)明專利]基于Bi-LSTM和文本相似性的漏洞檢測方法有效
| 申請?zhí)枺?/td> | 201810519622.3 | 申請日: | 2018-05-28 |
| 公開(公告)號: | CN108763931B | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計)人: | 易平;夏之陽;張維;焦點;曹軼旸;代德發(fā);邱寶琳 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F21/57;G06N3/04 |
| 代理公司: | 上海交達(dá)專利事務(wù)所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 bi lstm 和文 相似性 漏洞 檢測 方法 | ||
1.一種基于Bi-LSTM和文本相似性的漏洞檢測系統(tǒng),其特征在于,包括:預(yù)處理模塊、訓(xùn)練模塊和預(yù)測模塊,其中:預(yù)處理模塊讀入漏洞代碼庫中的源碼并生成詞向量字典,訓(xùn)練模塊采用詞向量字典對Bi-LSTM模型進(jìn)行訓(xùn)練,得到模型參數(shù),預(yù)測模塊利用訓(xùn)練得到的模型參數(shù)進(jìn)行漏洞判斷;
所述的漏洞檢測是指:針對敏感函數(shù)進(jìn)行切片操作得到代碼段,對代碼段通過分詞算法處理得到單詞從而生成用于組成文本向量的字典,通過字典將文本轉(zhuǎn)化為詞向量字典作為訓(xùn)練樣本對Bi-LSTM模型進(jìn)行訓(xùn)練,從而得到漏洞的文本性特征以及模型參數(shù),通過最終得到的Bi-LSTM模型進(jìn)行待測源碼的漏洞判斷;
所述的Bi-LSTM模型依次包括:兩個網(wǎng)絡(luò)分支以及合并單元以及全連接層,其中:每個網(wǎng)絡(luò)分支包括輸入層、隱層、嵌入層和Bi-LSTM神經(jīng)網(wǎng)絡(luò),合并單元分別與兩個Bi-LSTM神經(jīng)網(wǎng)絡(luò)相連;
所述的訓(xùn)練模塊采用雙向LSTM,即每一個訓(xùn)練序列向前和向后分別是兩個LSTM網(wǎng)絡(luò),將詞向量字典進(jìn)行詞向量映射得到詞向量列表作為Bi-LSTM模型中LSTM層的輸入,然后將兩個LSTM層的輸出拼接后作為Bi-LSTM模型中全連接層的輸入,經(jīng)過丟棄算法和分批標(biāo)準(zhǔn)化處理后連接到只有一個神經(jīng)元的全連接層得到輸出,結(jié)果與標(biāo)簽比對后運用反向傳播算法進(jìn)一步訓(xùn)練;
所述的切片是指:將文本文件中的源碼中與對應(yīng)緩沖區(qū)溢出漏洞代碼相匹配的敏感函數(shù)分割并得到的代碼段;
所述的切片,在分割后將非敏感變量,即非系統(tǒng)函數(shù)和非系統(tǒng)變量進(jìn)行統(tǒng)一替換;
所述的統(tǒng)一替換具體為:對于代碼段中的函數(shù),將所有系統(tǒng)函數(shù)、系統(tǒng)變量之外的所有函數(shù)和變量進(jìn)行統(tǒng)一替換,替換格式為:變量更改為VAR、函數(shù)更改為FUN、類更改為CLASS的形式,并且不同的函數(shù)變量之間后綴數(shù)字不同;
所述的分詞算法是指:將特殊符號、數(shù)字、用戶定義詞語、保留字作為單獨詞匯,忽略空格、換行符;
所述的漏洞判斷是指:根據(jù)模型參數(shù)設(shè)置Bi-LSTM模型并對待測文本文件切片與已知樣本切片配對作為輸入,判斷是否存在漏洞并生成漏洞報告。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征是,所述的分詞算法是指:將代碼段轉(zhuǎn)化為獨立的單詞的組合。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征是,所述的組成文本向量是指:通過字典將文本轉(zhuǎn)化為字典單詞對應(yīng)編號列表,利用word2vec算法將編號列表轉(zhuǎn)化為固定維度向量,之后將文本向量數(shù)統(tǒng)一到相同長度,建立由文本向量組成的詞向量字典。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征是,所述的輸入,具體為兩份切片后的配對代碼段,其中一份正樣本、一份負(fù)樣本或者兩份負(fù)樣本。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征是,所述的配對為隨機(jī)搭配,即當(dāng)輸入為一正一負(fù),則輸出結(jié)果應(yīng)為不相似;當(dāng)同為負(fù)樣本,則為相似。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810519622.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計算機(jī)或計算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計算機(jī)系統(tǒng)或計算機(jī)網(wǎng)絡(luò)中的節(jié)點
G06F21-22 .通過限制訪問或處理程序或過程
- 商業(yè)智能工具中的數(shù)據(jù)挖掘及預(yù)測洞察力的快速、動態(tài)、數(shù)據(jù)驅(qū)動的報告部署
- 一種制備高拉伸塑性Ni(Bi)合金的方法
- 一種通過添加形核劑制備具有彌散型復(fù)合凝固組織Al-Bi合金的方法
- 空調(diào)器BI報表系統(tǒng)、空調(diào)器BI報表的生成方法和存儲介質(zhì)
- 一種Bi-2223高溫超導(dǎo)帶材的制備方法
- 一種Bi-2212高溫超導(dǎo)線材的制備方法
- 一種Bi/Bi<base:Sub>2
- C/Bi/Bi<base:Sub>2
- 一種Bi-Bi<base:Sup>5+
- BI服務(wù)集群系統(tǒng)及其搭建方法
- 用于高階長短期記憶網(wǎng)絡(luò)的系統(tǒng)和方法
- 基于深度學(xué)習(xí)LSTM的空調(diào)故障診斷方法
- 基于注意力機(jī)制的時間序列預(yù)測方法、裝置及存儲介質(zhì)
- 一種基于PCA-LSTM網(wǎng)絡(luò)的廢水處理智能監(jiān)控方法
- 一種基于FAF-LSTM深度神經(jīng)網(wǎng)絡(luò)的居民負(fù)荷預(yù)測方法及系統(tǒng)
- 用于預(yù)測血糖水平的循環(huán)神經(jīng)網(wǎng)絡(luò)裝置和系統(tǒng)
- 基于情景LSTM結(jié)構(gòu)網(wǎng)絡(luò)的微博情感分析方法
- 語音信號處理方法、裝置、電子設(shè)備和存儲介質(zhì)
- 基于約束并行LSTM分位數(shù)回歸的電力負(fù)荷概率預(yù)測方法
- 基于深度網(wǎng)絡(luò)AS-LSTM的命名實體識別系統(tǒng)及識別方法





