[發明專利]一種安全報告文本的三元組抽取方法、裝置及電子設備有效
| 申請號: | 202110316446.5 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112699665B | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 周子楠;董龍飛 | 申請(專利權)人: | 北京智源人工智能研究院 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/253;G06F40/242;G06F16/36 |
| 代理公司: | 北京動力號知識產權代理有限公司 11775 | 代理人: | 梁艷;白婉露 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 安全 報告 文本 三元 抽取 方法 裝置 電子設備 | ||
1.一種安全報告文本的三元組抽取方法,其特征在于,包括:
S1,獲取安全報告文本;
S2,對所述安全報告文本進行分句處理;
S3,利用融合外部知識構建的分詞和詞性標注聯合模型對所述分句處理的結果進行分詞處理和詞性標注,輸出分詞與詞性標注結果;
其中,所述融合外部知識構建的分詞和詞性標注聯合模型包括依次連接的編碼層、雙通道注意力模型、解碼層和輸出層;所述編碼層包括基于安全知識圖譜的K-Bert模型,所述雙通道注意力模型包括安全自定義詞典、詞性標簽以及通過NLP工具箱生成的句法信息,所述解碼層包括條件隨機場;
S4,基于依存句法分析方法對所述分詞與詞性標注結果進行句法分析,獲得其中的語法成分以及所述語法成分之間的關系;所述S4包括:基于模型編碼器內的Electra Small+BiAffine Parser+Eisner模型算法進行句法分析,所述Electra Small+BiAffine Parser+Eisner模型算法中的BiAffine Parser模型算法使用詞性嵌入作為所述模型編碼器的輔助輸入進行句法分析;
S5,進行語義角色標注,獲得給定謂語的論元;
S6,輸出主謂賓形式的三元組;
其中在所述S3之后和所述S4之前,包括:
判斷分詞與詞性標注結果中是否存在專有名詞,若是,則將專有名詞劃分為主語或賓語,然后執行S4;若否,則執行S4;
所述S2包括:
將所述安全報告文本基于jieba庫以標點符號進行分句處理,所述標點符號包括逗號、頓號、句號、嘆號和/或問號;
所述安全自定義詞典包括安全領域的專有名詞,所述專有名詞包括攻擊模式、攻擊類型、漏洞類型、威脅組織和/或黑客組織。
2.一種實施權利要求1所述安全報告文本的三元組抽取方法的三元組抽取裝置,其特征在于,包括:
文本獲取模塊,獲取安全報告文本;
分句處理模塊,用于對所述安全報告文本進行分句處理;
分詞處理與詞性標注模塊,用于利用融合外部知識構建的分詞和詞性標注聯合模型對所述分句處理的結果進行分詞處理和詞性標注,輸出分詞與詞性標注結果;
句法分析模塊,用于基于依存句法分析方法對所述分詞與詞性標注結果進行句法分析,獲得其中的語法成分以及所述語法成分之間的關系;
語義角色標注模塊,用于進行語義角色標注,獲得給定謂語的論元;
輸出模塊,用于輸出主謂賓形式的三元組。
3.一種電子設備,其特征在于,包括處理器和存儲器,所述存儲器存儲有多條指令,所述處理器用于讀取所述多條指令并執行如權利要求1所述的安全報告文本的三元組抽取方法。
4.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有多條指令,所述多條指令可被處理器讀取并執行如權利要求1所述的安全報告文本的三元組抽取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智源人工智能研究院,未經北京智源人工智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316446.5/1.html,轉載請聲明來源鉆瓜專利網。





