[發明專利]基于小樣本學習的網絡協議實體抽取方法與系統在審
| 申請號: | 202110660203.3 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113343697A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 李守斌;常志遠;胡軍;王青 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06K9/62;G06N20/10 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 學習 網絡 協議 實體 抽取 方法 系統 | ||
本發明提出了一種基于小樣本學習的網絡協議實體抽取方法與系統,該方法僅需要少量的帶標注的RFC文檔樣本,即可實現對大量未標注的RFC文檔進行網絡協議實體抽取且保持較高的識別精度。該方法首先盡可能多的挖掘RFC文檔中潛在網絡協議實體,其次對已識別的潛在的網絡協議實體進行精準再識別。通過實驗表明,利用5篇人工標注的RFC文檔來訓練本發明的模型,網絡協議實體抽取的準確率達到了88.4%,該方法較現有方法在網絡協議實體抽取方面具有較高的精度和較好的強魯棒性,同時對未在訓練集中出現過的網絡協議實體同樣具有較好的辨識能力。本發明有助于在未來實現網絡協議的自動化分析,為計算機網絡方面的研究提供幫助。
技術領域
本發明屬于計算機技術領域,提出了一種基于小樣本學習的網絡協議實體抽取方法和系統。該方法僅需要少量的帶標注的RFC文檔樣本,即可實現對大量未標注的RFC文檔進行網絡協議實體抽取且保持較高的識別精度,對計算機網絡領域的研究有著重要的意義。
背景技術
隨著互聯網時代的發展,網絡安全問題的重要性與日劇增,而網絡協議作為互聯網中的基礎設施,加強對它的深入分析顯得尤為重要。目前已經有很多針對網絡協議的研究,比如利用自動化模糊測試挖掘協議漏洞,以提升協議的安全性;利用網絡協議識別算法,以預防網絡攻擊,從而進一步提高網絡的安全性等。在這些研究中,基于知識的網絡協議分析顯得尤為重要。研究者通過知識圖譜把復雜的領域知識通過數據挖掘、信息處理、知識計量和圖形繪制等方式,把所有不同種類的信息連接在一起,形成一個關系網絡并從“關系”的角度去分析問題,解釋知識領域的動態發展規律而網絡協議實體抽取是構建網絡協議知識圖譜的關鍵一環。RFC(Request For Comments)是一系列以編號排定的文件,文件收集了有關互聯網的網絡協議相關信息,以及UNIX和互聯網社區的軟件文件,基本的互聯網通信協議都有在RFC文件內詳細說明。RFC的成稿過程時間跨度長,參與撰寫的組織多,包含的網絡協議種類多,導致RFC的文檔成文結構不規范不統一,這給網絡協議實體的自動化抽取工作帶來了極大的困難。
發明內容
針對上述問題,本發明提出一種基于小樣本學習的網絡協議實體抽取方法與系統,目標是通過充分學習樣本的語義特征,在小樣本上訓練的效果與在大樣本上訓練的效果一致,可以準確地抽取網絡協議實體,且具有高的魯棒性,同時對未在訓練樣本中出現過的網絡協議實體同樣具有較高的抽取精度。
本發明采用的技術方案如下:
一種基于小樣本學習的網絡協議實體抽取方法,包括以下步驟:
1)根據專家知識構建網絡協議文檔集;
2)從所述網絡協議文檔集中提取網絡協議實體包含的字段和描述信息,由字段和描述信息構成網絡協議信息數據集;
3)對網絡協議信息數據集進行分塊處理,構成網絡協議文本分塊集;
4)將傳統機器學習模型在所述網絡協議文本分塊集上進行訓練,得到訓練后的潛在網絡協議實體分類器;
5)利用所述網絡協議文本分塊集,訓練基于神經網絡的網絡協議實體精準識別模型;
6)將所述潛在網絡協議實體分類器和所述網絡協議實體精準識別模型融合,得到基于小樣本學習的網絡協議實體抽取模型;
7)基于所述基于小樣本學習的網絡協議實體抽取模型,對待進行實體抽取的網絡協議文本進行網絡協議實體抽取。
進一步地,步驟1)使用啟發式規則或工具包對所述網絡協議文檔集(即RFC文檔集)中的文檔做預處理,其步驟包括:
通過模式匹配的方法去除文本中的頁眉和頁腳;
多數圖表由符號“+-”或其他特殊字符組成,先在文本中定位到該符號所在行,然后從此行開始往下刪除含有特殊符號的每行,直到單行單詞稀疏度高于閾值時停止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110660203.3/2.html,轉載請聲明來源鉆瓜專利網。





