[發明專利]一種基于多任務深度學習的安全缺陷報告預測方法在審
| 申請號: | 202010853000.1 | 申請日: | 2020-08-22 |
| 公開(公告)號: | CN112001484A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 蘇小紅;蔣遠;牟辰光;王甜甜 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62;G06F40/284;G06F16/35 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 深度 學習 安全 缺陷 報告 預測 方法 | ||
本發明公開了一種基于多任務深度學習的安全缺陷報告預測方法,首先挖掘缺陷報告倉庫以及安全漏洞管理網站,構造多任務學習數據集。對數據集中缺陷報告的文本內容進行預處理,生成專業語料庫,并利用其訓練word2vec模型。建立多任務深度學習模型,利用模型底層的深度神經網絡提取缺陷報告的共享語義特征,利用高層的各個子網絡學習針對不同任務的具有分辨力的特征,最后將高層網絡輸出的特征向量作為各子任務預測網絡的輸入,完成安全缺陷報告識別和嚴重級別預測任務。本發明首次將多任務學習用于安全缺陷報告預測,利用與目標任務相關的輔助任務信息,引導模型學習到有更強泛化能力的特征,能夠提高模型的泛化能力,降低噪音數據的影響。
技術領域
本發明涉及一種安全缺陷報告預測方法,具體涉及一種基于多任務深度學習的安全缺陷報告預測方法。
背景技術
隨著軟件的規模和復雜性日益增大,不可避免地會出現各種各樣的軟件缺陷。其中,安全相關的缺陷一旦被攻擊者利用,將會對軟件系統造成重大危害和損失。為了利于收集和管理軟件缺陷,越來越多的軟件公司比如Google、Mozilla已經建立了自己的缺陷報告追蹤系統,用戶可將發現的缺陷提交到系統上以便及時分派修復人員進行修復。由于缺乏安全相關的領域知識,缺陷報告提交者往往很難準確判斷缺陷報告是否與安全相關,如果在提交報告時將安全相關的缺陷標記為非安全相關,那么勢必會貽誤安全缺陷修復的時機,對系統造成嚴重的安全威脅。采用人工方式識別安全相關的缺陷報告(以下簡稱“安全缺陷報告”)顯然是非常耗時和不現實的。因此,自動識別安全缺陷報告具有重要意義。
缺陷報告本身就具有文本描述信息差異性大的特點,又因正樣本即安全缺陷報告(Security Bug Report,SBR)在數據集中的比例較少導致類別不均衡和安全特征稀缺而不易提取,此外因開發或測試人員缺乏安全知識還會導致少量SBR未被標記為安全相關的缺陷報告,而以非安全缺陷報告(Non-Security Bug Report,NSBR)的形式存在于數據集中,相當于在數據集中引入了噪音,這些問題都給自動識別安全缺陷報告帶來了困難和挑戰。
目前常用的方法是使用文本挖掘和機器學習相結合的方法。FARSEC和LTRWES是這類方法的典型代表。FARSEC方法是Peters等人(Peters F,Tun T,Yu Y,et al.TextFiltering and Ranking for Security Bug Report Prediction[J].IEEE Transactionson Software Engineering,2017:1-1)提出的,該方法從安全缺陷報告中提取tf-idf值最高100個詞作為安全相關的關鍵詞,并利用這100個安全關鍵詞來過濾非安全缺陷報告,同時還利用這些安全關鍵詞將歷史缺陷報告表示成一個100維的特征向量,用于訓練SBR自動識別模型。然而,這種方法存在的主要問題是tf-idf值較高的詞未必是和安全相關的詞,這會影響噪音數據的過濾效果,同時因一份缺陷報告中可能只出現少數幾個安全相關的關鍵詞,還會導致特征向量中含有大量的0元素即出現向量稀疏問題,從而無法準確地表達缺陷報告的語義信息。針對這些問題,Jiang等人(Y Jiang,P LU,X SU,T Wang.LTRWES:A newframework for security bug report detection[J].Information and SoftwareTechnology.2020:106314)提出使用排序模型BM25Fext計算每個NSBR與所有SBR的內容相關性,然后從NSBR中過濾掉與SBR內容相關度較高的NSBR,利用在大量缺陷報告文本語料庫上訓練的word2vec模型將缺陷報告表示為低維連續的實值向量,進而實現更準確的缺陷報告向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010853000.1/2.html,轉載請聲明來源鉆瓜專利網。





