[發明專利]基于小樣本學習的網絡協議實體抽取方法與系統在審
| 申請號: | 202110660203.3 | 申請日: | 2021-06-15 |
| 公開(公告)號: | CN113343697A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 李守斌;常志遠;胡軍;王青 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06K9/62;G06N20/10 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 學習 網絡 協議 實體 抽取 方法 系統 | ||
1.一種基于小樣本學習的網絡協議實體抽取方法,其步驟包括:
根據專家知識構建網絡協議文檔集;
從所述網絡協議文檔集中提取網絡協議實體包含的字段和描述信息,由字段和描述信息構成網絡協議信息數據集;
對所述網絡協議信息數據集進行分塊處理,構成網絡協議文本分塊集;
在所述網絡協議文本分塊集上訓練機器學習模型,得到訓練后的潛在網絡協議實體分類器;
利用所述網絡協議文本分塊集,訓練基于神經網絡的網絡協議實體精準識別模型;
將所述潛在網絡協議實體分類器和所述網絡協議實體精準識別模型融合,得到基于小樣本學習的網絡協議實體抽取模型;
基于所述基于小樣本學習的網絡協議實體抽取模型,對待進行實體抽取的網絡協議文本進行網絡協議實體抽取。
2.如權利要求1所述的方法,其特征在于,使用啟發式規則或工具包對所述網絡協議文檔集中的文檔做預處理,其步驟包括:
通過模式匹配的方法去除文本中的頁眉和頁腳;
多數圖表由符號“+-”或其他特殊字符組成,先在文本中定位到該符號所在行,然后從此行開始往下刪除含有特殊符號的每行,直到單行單詞稀疏度高于閾值時停止。
3.如權利要求1所述的方法,其特征在于,所述對所述網絡協議信息數據集進行分塊處理,包括:運用“CoreNLP”包中的NLP工具將文本中每句話轉換為語法樹結構,根據語法樹可將每句話切分為多個語法短語。
4.如權利要求1所述的方法,其特征在于,將所述分塊處理后的網絡協議文本分塊集中的描述信息劃分為正負樣本,樣本向量化表示后作為所述機器學習模型的輸入,生成所述潛在網絡協議實體分類器。
5.如權利要求1所述的方法,其特征在于,所述的潛在網絡協議實體中大部分負樣本包含的十二類詞性,正樣本中并不包含,運用工具包抽取網絡協議實體對應的詞性,去除含有上述詞性的實體;所述十二類詞性包括副詞、動詞不定式、單數動詞、感嘆詞、量詞、情態動詞、介詞、動名詞、條件連接詞、非第三人稱單數、動詞原形、名詞所有格。
6.如權利要求1所述的方法,其特征在于,將所述網絡協議文本分塊集中的網絡協議文本分塊通過詞嵌入處理,按結果集劃分后輸入網絡協議實體精準識別模型中進行訓練,利用神經網絡生成對協議頭字段敏感的網絡協議實體精準識別模型;所述網絡協議實體精準識別模型包括線性聚合層和非線性層;通過非線性層保證字段信息的描述性語義信息被單獨檢查,從而保留字段信息的有價值信息;通過線性聚合層將所有隱藏狀態即來自非線性層的中間結果連接起來,以充分地利用網絡的推斷結果。
7.如權利要求1所述的方法,其特征在于,所述基于所述基于小樣本學習的網絡協議實體抽取模型,對待進行實體抽取的網絡協議文本進行網絡協議實體抽取,包括:
將待進行實體抽取的網絡協議文本進行預處理;
將預處理后的協議文本分塊集輸入所述潛在網絡協議實體分類器,得到潛在網絡協議實體集;
將得到的潛在網絡協議實體集輸入所述網絡協議實體精準識別模型;
將經過網絡協議實體精準識別模型后的結果輸入分類層進行分類,得到抽取實體結果。
8.一種基于小樣本學習的網絡協議實體抽取系統,其特征在于,包括:
模型模塊,包含權利要求1~7中任一權利要求所述方法構建的網絡協議實體抽取模型,該模型接收待進行抽取實體的網絡協議文本作為輸入;
融合模塊,用于將潛在網絡協議實體分類器和所述網絡協議實體精準識別模型融合,得到網絡協議實體抽取模型;
分類模塊,用于網絡協議實體抽取模型的結果輸入分類層進行分類,得到實體抽取結果。
9.一種存儲介質,其特征在于,所述存儲介質中存儲有計算機程序,所述計算機程序執行權利要求1-7中任一權利要求所述的方法。
10.一種電子裝置,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行權利要求1-7中任一權利要求所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110660203.3/1.html,轉載請聲明來源鉆瓜專利網。





