[發(fā)明專利]一種基于預訓練模型BERT的網絡空間安全領域命名實體識別方法和裝置有效
| 申請?zhí)枺?/td> | 202010151014.9 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111460820B | 公開(公告)日: | 2022-06-17 |
| 發(fā)明(設計)人: | 韓瑤鵬;姜波;盧志剛;劉玉嶺;劉俊榮 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 bert 網絡 空間 安全 領域 命名 實體 識別 方法 裝置 | ||
本發(fā)明涉及一種基于預訓練模型BERT的網絡空間安全領域命名實體識別方法和裝置。該方法對輸入的網絡空間安全領域的句子文本使用BERT模型的分詞器WordPiece進行分詞預處理;將分詞預處理得到的所有token加載至BERT模型中進行訓練,獲得輸出的向量表示,并將其送至Highway網絡和分類器,將token的向量表示的維度映射至與標簽數(shù)量一致的維度,得到token的最終向量表示;然后只使用每一個單詞的第一個token來使用交叉熵損失函數(shù)計算損失,將其反向傳播以更新模型參數(shù),得到訓練完成的安全領域命名實體識別模型,用于安全領域命名實體識別。本發(fā)明能夠有效地解決安全文本做命名實體識別任務。
技術領域
本發(fā)明提出了一種使用預訓練模型BERT解決安全領域中的英文文本命名實體識別的方法和裝置,涉及使用自然語言處理中的預訓練模型來針對網絡空間安全領域進行命名實體識別的方法,屬于計算機科學與網絡安全交叉技術領域。
背景技術
隨著如今信息技術的不斷發(fā)展以及網絡空間安全問題不斷發(fā)生,如何從增長迅速的安全文本中提取出有價值的信息已經成為研究的焦點。網絡空間安全命名實體識別是一種基于特定領域的命名實體識別技術,主要目的是從大量安全文本中識別出惡意程序、黑客組織、漏洞、惡意文件名等不同類型的實體。這樣不僅更加方便的為之后的構建網絡安全知識圖譜奠定了基礎,還可以省去人工從文本中篩選信息的勞動力。
命名實體識別任務已經發(fā)展了好多年,方法已經從傳統(tǒng)的基于特征的機器學習過渡到如今基于深度學習模型上,如RNN、CNN。網絡空間安全領域的文本在非常迅速地增加,因此從中提取出重要的信息日益重要。但是網絡空間安全領域的命名實體識別和傳統(tǒng)的命名實體識別任務相比有幾個難點。例如安全文本中經常有一些實體是縮寫以及連寫,經常會出現(xiàn)一些IP、文件名等實體不在詞表中,經常會有新的詞語作為實體出現(xiàn)和經常有一詞多義的問題。RNN、CNN等傳統(tǒng)的深度學習模型采用的是Word2Vec、Glove等靜態(tài)詞向量,不能很好地捕獲詞的上下文信息,不能很好的解決一詞多義和未登錄詞等問題。因此使用經典的RNN、CNN深度學習模型并不能很好的解決這些安全領域的挑戰(zhàn)。
近兩年隨著Transoformer網絡結構的提出,基于此網絡架構的預訓練的模型已經逐漸成為當今自然語言處理領域研究的熱點,并且在眾多自然語言處理任務中表現(xiàn)超過了之前的基于RNN、CNN網絡架構的深度學習模型。而在預訓練模型中表現(xiàn)最好的當屬BERT模型,并且之后很多的預訓練模型都是基于BERT上進行開展研究的。在科學、醫(yī)療領域已經有較多的基于預訓練模型的研究,但是很少有基于網絡空間安全領域的預訓練模型研究。因此本發(fā)明關注將預訓練模型BERT應用于網絡空間安全命名實體識別任務上來解決其中的難點。
BERT采用了雙向的Transformer網絡結構來進行語言建模,可以很好的捕獲詞的上下文信息。BERT采用了兩個新的無監(jiān)督預測任務,其一是遮蔽語言模型(MaskedLanguage Model,MLM),MLM首先對輸入句子進行分詞,對于英文來說每一個詞語會被切分若干部分,其中每一部分稱為一個token,之后隨機mask(遮蔽)句子中一部分token來對其進行預測的任務;另一個是下一句預測(Next Sentence Prediction,NSP),通過預測每一個句子的之后句子是否是該句子的下一個句子的任務,是一個二分類任務。通過這兩個預訓練預測任務BERT能夠很好的利用每個詞的上下文信息,并且可以學習到單詞的多義性。BERT還采用了WordPiece來作為分詞器,通過首先對輸入的文本進行分詞預處理進而在輸入至模型中。在處理英文數(shù)據(jù)時,WordPiece會將一些英文詞語根據(jù)其前綴后綴切分為若干token,這樣在處理一些有著不同形態(tài)時態(tài)的意思相近詞語時,這些詞可能被切分成包含相同的前綴后綴的token,而這些token也都包含著自己的語義信息,所以這些詞有著更加相近準確的語義表示,或者在處理一些未登錄詞的時候能獲取切分后的部分token的語義表示,而不僅僅將該詞單獨的作為未登錄詞來處理。通過這種分詞不僅可以使詞表大小顯著較少,而且還可以更好的處理不同形態(tài)時態(tài)下的相近詞和未登錄詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010151014.9/2.html,轉載請聲明來源鉆瓜專利網。





