[發(fā)明專利]一種安全報告文本的三元組抽取方法、裝置及電子設備有效
| 申請?zhí)枺?/td> | 202110316446.5 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112699665B | 公開(公告)日: | 2021-08-27 |
| 發(fā)明(設計)人: | 周子楠;董龍飛 | 申請(專利權(quán))人: | 北京智源人工智能研究院 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/253;G06F40/242;G06F16/36 |
| 代理公司: | 北京動力號知識產(chǎn)權(quán)代理有限公司 11775 | 代理人: | 梁艷;白婉露 |
| 地址: | 100083 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 安全 報告 文本 三元 抽取 方法 裝置 電子設備 | ||
本發(fā)明公開了一種安全報告文本的三元組抽取方法,包括:獲取安全報告文本;對安全報告文本進行分句處理;利用融合外部知識構(gòu)建的分詞和詞性標注聯(lián)合模型對分句處理的結(jié)果進行分詞處理和詞性標注,輸出分詞與詞性標注結(jié)果;基于依存句法分析方法對分詞與詞性標注結(jié)果進行句法分析,獲得其中的語法成分以及語法成分之間的關系;進行語義角色標注,獲得給定謂語的論元;輸出主謂賓形式的三元組。還公開了相應的裝置、電子設備及計算機可讀存儲介質(zhì),采用依據(jù)句法分析的方式分析安全報告文本,提取三元組,在分詞過程中,加入安全領域的專有名詞,使模型更好識別主語所在位置及長度,更好表達三元組中主謂賓含義以滿足準確進行情報分析和篩查的需求。
技術領域
本發(fā)明涉及自然語言識別與分析處理技術領域,尤其涉及一種安全報告文本的三元組抽取方法、裝置及電子設備。
背景技術
威脅情報是經(jīng)過研判過的安全信息,威脅情報可用于輔助支持決策或者安全分析,未知來源和真實性的安全信息將影響決策的正確性和分析結(jié)果的準確性。信息研判分為兩個方面,信息來源和信息本身。即時能夠確保信息的來源可靠,但是現(xiàn)有技術通常是采用人工的方式從海量的安全報告中篩查和總結(jié)威脅情報,非常費時費力,并且篩查的準確度由于無法一直關注于信息本身而偏低,即人工是無法確保一定可以提取其中的關鍵信息的,因此需要優(yōu)化安全領域文本的抽取方式和方法,成為新的發(fā)展方向。
發(fā)明內(nèi)容
本發(fā)明提供了一種安全報告文本的三元組抽取方法、裝置及電子設備,采用依據(jù)句法分析的方式分析安全報告文本,提取三元組,一般使用句法分析工具,將一段文本進行分句處理,依次進行分詞(Segmentor)、詞性標注(Postagger)、句法分析(Parser)和語義角色標注(SementicRoleLabeller),最后以主謂賓的形式形成三元組;與此同時,在分詞過程中,加入安全領域的專有名詞,使模型更好識別出主語所在的位置及長度,更好的表達出三元組中主謂賓的含義,以滿足從安全報告中準確進行情報分析和篩查的需求。
根據(jù)本發(fā)明的第一方面,提供了一種安全報告文本的三元組抽取方法,包括:
S1,獲取安全報告文本;
S2,對所述安全報告文本進行分句處理;
S3,利用融合外部知識構(gòu)建的分詞和詞性標注聯(lián)合模型對所述分句處理的結(jié)果進行分詞處理和詞性標注,輸出分詞與詞性標注結(jié)果;
S4,基于依存句法分析方法對所述分詞與詞性標注結(jié)果進行句法分析,獲得其中的語法成分以及所述語法成分之間的關系;
S5,進行語義角色標注,獲得給定謂語的論元;
S6,輸出主謂賓形式的三元組。
進一步地,所述S2包括:
將所述安全報告文本基于jieba庫以標點符號進行分句處理,所述標點符號包括逗號、頓號、句號、嘆號和/或問號。
進一步地,所述融合外部知識構(gòu)建的分詞和詞性標注聯(lián)合模型包括依次連接的編碼層、雙通道注意力模型、解碼層和輸出層;所述編碼層包括基于安全知識圖譜的K-Bert模型,所述雙通道注意力模型包括安全自定義詞典、詞性標簽以及通過NLP工具箱生成的句法信息,所述解碼層包括條件隨機場。
進一步地,所述安全自定義詞典包括安全領域的專有名詞,所述專有名詞包括攻擊模式、攻擊類型、漏洞類型、威脅組織和/或黑客組織。
進一步地,在所述S3之后和所述S4之前,包括:
判斷分詞與詞性標注結(jié)果中是否存在專有名詞,若是,則將專有名詞劃分為主語或賓語,然后執(zhí)行S4;若否,則執(zhí)行S4。
進一步地,所述S4包括:基于模型編碼器內(nèi)的Electra Small+BiAffine Parser+Eisner模型算法進行句法分析。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智源人工智能研究院,未經(jīng)北京智源人工智能研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316446.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





