[發(fā)明專利]關(guān)系抽取模型的訓(xùn)練方法、關(guān)系抽取方法、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202011199788.5 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112307170A | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計)人: | 王旭仁;江鈞;汪秋云;楊杰;姜政偉;劉寶旭 | 申請(專利權(quán))人: | 首都師范大學(xué);中國科學(xué)院信息工程研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F21/55;G06F40/211;G06F40/295;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 李莎 |
| 地址: | 100037 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 關(guān)系 抽取 模型 訓(xùn)練 方法 設(shè)備 介質(zhì) | ||
1.一種關(guān)系抽取模型的訓(xùn)練方法,其特征在于,所述關(guān)系抽取模型包括:特征轉(zhuǎn)換器、句子實例選擇器和關(guān)系分類器,所述方法包括:
對關(guān)系抽取數(shù)據(jù)集中的每個文本語料中的多個句子實例進行特征處理,得到每個句子實例的初始特征;其中,所述關(guān)系抽取數(shù)據(jù)集包括:多個文本語料,每個句子實例為預(yù)先標(biāo)注有實體關(guān)系的威脅情報文本;
通過所述特征轉(zhuǎn)換器,對所述每個句子實例的初始特征進行特征轉(zhuǎn)換,得到所述每個句子實例的句子特征;
通過所述句子實例選擇器,根據(jù)所述每個句子實例的句子特征,從所述多個句子實例中選擇目標(biāo)句子實例;
通過所述關(guān)系分類器對所述目標(biāo)句子實例進行關(guān)系分類,得到所述目標(biāo)句子實例的實體關(guān)系分類結(jié)果;
根據(jù)所述實體關(guān)系分類結(jié)果和預(yù)先標(biāo)注的實體關(guān)系,對所述句子實例選擇器和所述關(guān)系分類器的參數(shù)進行訓(xùn)練優(yōu)化,得到目標(biāo)關(guān)系抽取模型,所述目標(biāo)關(guān)系抽取模型包括:訓(xùn)練優(yōu)化后的所述句子實例選擇器和訓(xùn)練優(yōu)化后的關(guān)系分類器。
2.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述對關(guān)系抽取數(shù)據(jù)集中的每個文本語料中的多個句子實例進行特征處理之前,所述方法還包括:
根據(jù)預(yù)先構(gòu)建的威脅情報的實體關(guān)系知識庫,采用遠程監(jiān)督方法,對多個威脅情報文本進行實體關(guān)系的遠程監(jiān)督標(biāo)注,得到所述多個句子實例。
3.根據(jù)權(quán)利要求2所述的訓(xùn)練方法,其特征在于,所述根據(jù)預(yù)先構(gòu)建的威脅情報的實體關(guān)系知識庫,采用遠程監(jiān)督方法,對多個威脅情報文本進行實體關(guān)系的遠程監(jiān)督標(biāo)注,得到所述多個句子實例之前,所述方法還包括:
根據(jù)預(yù)先確定的威脅情報的實體關(guān)系列表,從開源結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建所述實體關(guān)系知識庫;其中,每個威脅情報文本為非結(jié)構(gòu)化的威脅情報文本。
4.根據(jù)權(quán)利要求3所述的訓(xùn)練方法,其特征在于,所述根據(jù)預(yù)先確定的威脅情報的實體關(guān)系列表,從開源結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建所述實體關(guān)系知識庫之前,所述方法還包括:
根據(jù)預(yù)先獲取的開源威脅情報報告以及預(yù)設(shè)的威脅情報實體規(guī)范,確定威脅情報實體關(guān)系;
根據(jù)所述威脅情報實體關(guān)系進行篩選,并根據(jù)篩選后的所述威脅情報實體關(guān)系,構(gòu)建所述威脅情報的實體關(guān)系列表。
5.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述每個句子實例的初始特征包括:詞向量、位置向量和實體類型向量;
所述對關(guān)系抽取數(shù)據(jù)集中的每個文本語料中的多個句子實例進行特征處理,得到每個句子實例的初始特征,包括:
采用預(yù)設(shè)的詞向量語言模型,對所述每個句子實例進行特征處理,得到所述每個句子實例的詞向量;
根據(jù)所述每個句子實例中每個詞與所述每個句子實例中實體的相對距離,得到所述每個句子實例的位置向量;
采用預(yù)設(shè)的標(biāo)注方法,對所述每個句子實例中的實體類型進行標(biāo)注,得到所述每個句子實例中的實體類型向量。
6.根據(jù)權(quán)利要求5所述的訓(xùn)練方法,其特征在于,所述采用預(yù)設(shè)的標(biāo)注方法,對所述每個句子實例中的實體類型進行標(biāo)注,得到所述每個句子實例中的實體類型向量,包括:
采用所述預(yù)設(shè)的標(biāo)注方法,對所述每個句子實例中各個詞是否屬于預(yù)設(shè)的實體類型,以及屬于所述預(yù)設(shè)的實體類型時,對應(yīng)詞在所述每個句子實例中的相對位置進行標(biāo)注,得到所述每個句子實例中的實體類型向量。
7.根據(jù)權(quán)利要求1-6中任一所述的訓(xùn)練方法,其特征在于,所述實體關(guān)系分類結(jié)果表示為:識別到的實體關(guān)系,所述預(yù)先標(biāo)注的實體關(guān)系表示為:預(yù)設(shè)實體關(guān)系的標(biāo)注信息;
所述根據(jù)所述實體關(guān)系分類結(jié)果,和預(yù)先標(biāo)注的實體關(guān)系,對所述句子實例選擇器和所述關(guān)系分類器的參數(shù)進行訓(xùn)練優(yōu)化,得到目標(biāo)關(guān)系抽取模型,包括:
根據(jù)所述識別到的實體關(guān)系,和所述預(yù)設(shè)實體關(guān)系的標(biāo)注信息,采用預(yù)設(shè)的反饋函數(shù)計算所述目標(biāo)句子實例的質(zhì)量指標(biāo);
根據(jù)所述質(zhì)量指標(biāo),計算所述句子實例選擇器對應(yīng)的策略函數(shù)的調(diào)整誤差;
根據(jù)所述調(diào)整誤差,對所述策略函數(shù)的參數(shù)進行調(diào)整,使得所述句子實例選擇器基于參數(shù)調(diào)整后的所述策略函數(shù)進行句子實例的選擇。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于首都師范大學(xué);中國科學(xué)院信息工程研究所,未經(jīng)首都師范大學(xué);中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011199788.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





