[發明專利]關系抽取模型的訓練方法、關系抽取方法、設備及介質在審
| 申請號: | 202011199788.5 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112307170A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 王旭仁;江鈞;汪秋云;楊杰;姜政偉;劉寶旭 | 申請(專利權)人: | 首都師范大學;中國科學院信息工程研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F21/55;G06F40/211;G06F40/295;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 李莎 |
| 地址: | 100037 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關系 抽取 模型 訓練 方法 設備 介質 | ||
本發明提供一種關系抽取模型的訓練方法、關系抽取方法、設備及介質,涉及威脅情報關系處理技術領域。該方法包括:對數據集中每個文本語料中的多個句子實例進行特征處理,得到每個句子實例的初始特征;通過特征轉換器對初始特征進行轉換,得到每個句子實例的句子特征;通過句子實例選擇器,根據每個句子實例的句子特征,從多個句子實例中選擇目標句子實例;通過關系分類器對目標句子實例進行關系分類,得到目標句子實例的實體關系分類結果;根據實體關系分類結果和預先標注實體關系,對句子實例選擇器和關系分類器的參數進行訓練優化,得到目標關系抽取模型。本發明通過優化關系抽取模型,提高模型的關系分類精度。
技術領域
本發明涉及威脅情報關系處理技術領域,具體而言,涉及一種關系抽 取模型的訓練方法、關系抽取方法、設備及介質。
背景技術
伴隨著互聯網的迅猛發展,針對組織和公司的威脅和變體源源不斷。 不僅政府和公共部門臨著前所未有的網絡攻擊,基礎設施遭受黑客攻擊, 而且個人和企業也容易受到網絡攻擊,造成隱私、財務和經濟等各方面的 持續威脅。逐漸升級的APT(AdvancedPersistent Threat,高級持續性威脅) 攻擊手法使原先的威脅應對措施很難解決實質性網絡威脅。因此,網絡空 間安全機構正在尋求各種手段增加威脅情報數據的知識庫,從而更好地為 安全團隊提供最新的攻擊手段和威脅解決方案的開發。對威脅情報進行收 集,分析和深度研究,以動態擴展的威脅解決方案來應對攻擊者的入侵。
在現有的威脅情報的實體關系提取方法中,多采用傳統的依賴人工和 規則的實體關系提取方法,對句子特征的提取不夠完整,對噪音數據的過 濾不夠充分,使得威脅情報的實體關系提取的準確率比較低。
發明內容
本發明的目的在于,針對上述現有技術中的不足,提供一種關系抽取 模型的訓練方法、關系抽取方法、設備及介質,以便快速識別威脅情報中 實體之間的關系,并提高實體關系提取的準確率。
為實現上述目的,本發明實施例采用的技術方案如下:
第一方面,本發明實施例提供了一種關系抽取模型的訓練方法,所述 關系抽取模型包括:特征轉換器、句子實例選擇器和關系分類器,所述方 法包括:
對關系抽取數據集中的每個文本語料中的多個句子實例進行特征處理, 得到每個句子實例的初始特征;其中,所述關系抽取數據集包括:多個文 本語料,每個句子實例為預先標注有實體關系的威脅情報文本;
通過所述特征轉換器,對所述每個句子實例的初始特征進行特征轉換, 得到所述每個句子實例的句子特征;
通過所述句子實例選擇器,根據所述每個句子實例的句子特征,從所 述多個句子實例中選擇目標句子實例;
通過所述關系分類器對所述目標句子實例進行關系分類,得到所述目 標句子實例的實體關系分類結果;
根據所述實體關系分類結果和預先標注的實體關系,對所述句子實例 選擇器和所述關系分類器的參數進行訓練優化,得到目標關系抽取模型, 所述目標關系抽取模型包括:訓練優化后的所述句子實例選擇器和訓練優 化后的關系分類器。
具體的,所述對關系抽取數據集中的每個文本語料中的多個句子實例 進行特征處理之前,所述方法還包括:
根據預先構建的威脅情報的實體關系知識庫,采用遠程監督方法,對 多個威脅情報文本進行實體關系的遠程監督標注,得到所述多個句子實例。
具體的,所述根據預先構建的威脅情報的實體關系知識庫,采用遠程 監督方法,對多個威脅情報文本進行實體關系的遠程監督標注,得到所述 多個句子實例之前,所述方法還包括:
根據預先確定的威脅情報的實體關系列表,從開源結構化數據中構建 所述實體關系知識庫;其中,每個威脅情報文本為非結構化的威脅情報文 本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學;中國科學院信息工程研究所,未經首都師范大學;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011199788.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于非飽和土三軸實驗的雙模法制樣及脫模
- 下一篇:上肢康復設備





