[發(fā)明專利]一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810993387.3 | 申請(qǐng)日: | 2018-08-29 |
| 公開(公告)號(hào): | CN109165385B | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計(jì))人: | 趙翔;譚真;郭愛博;葛斌;郭得科;肖衛(wèi)東;唐九陽;黃旭倩 | 申請(qǐng)(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F16/36;G06N3/04 |
| 代理公司: | 北京風(fēng)雅頌專利代理有限公司 11403 | 代理人: | 馬驍;于潔 |
| 地址: | 410003*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 實(shí)體 關(guān)系 聯(lián)合 抽取 模型 三元 方法 | ||
1.一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于包括以下步驟:
獲取文本,對(duì)目標(biāo)文本進(jìn)行分句處理,并對(duì)句子中的每個(gè)單詞進(jìn)行標(biāo)記;
建立實(shí)體關(guān)系聯(lián)合抽取模型;
對(duì)所述實(shí)體關(guān)系聯(lián)合抽取模型進(jìn)行訓(xùn)練;
根據(jù)所述實(shí)體關(guān)系聯(lián)合抽取模型進(jìn)行三元組抽取;
所述實(shí)體關(guān)系聯(lián)合抽取模型,包括:
用于將具有1-hot表示的單詞轉(zhuǎn)換為嵌入向量的嵌入層、用于對(duì)輸入句子進(jìn)行編碼的雙向長短期記憶Bi-LSTM層和用于解碼的CRF層;
其中,對(duì)于任意三元組t=(e1,e2,r)∈T,所述嵌入層,包括:
從所述嵌入層獲得頭實(shí)體向量e1、尾實(shí)體向量e2和關(guān)系向量r,為更好地滿足遷移,要求e1+r≈e2,評(píng)分函數(shù)為:
其中,T為三元組集合、t為任意三元組、e1為頭實(shí)體向量、e2為尾實(shí)體向量、r為關(guān)系向量、f(t)為評(píng)分函數(shù)。
2.根據(jù)權(quán)利要求1所述的一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于,所述對(duì)句子中的每個(gè)單詞進(jìn)行標(biāo)記包括對(duì)句子中的每個(gè)單詞進(jìn)行位置、類型、是否涉及關(guān)系三部分進(jìn)行標(biāo)記。
3.根據(jù)權(quán)利要求1所述的一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于,所述Bi-LSTM層包括前向LSTM層和反向LSTM層,為防止雙向LSTM輸出實(shí)體特征出現(xiàn)偏差,要求和評(píng)分函數(shù)為:
其中,為前向LSTM輸出的評(píng)分函數(shù)、為反向LSTM輸出的評(píng)分函數(shù)、分別為前向LSTM輸出的頭實(shí)體向量和尾實(shí)體向量、分別為反向LSTM輸出的頭實(shí)體向量和尾實(shí)體向量。
4.根據(jù)權(quán)利要求1所述的一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于,所述對(duì)所述實(shí)體關(guān)系聯(lián)合抽取模型進(jìn)行訓(xùn)練包括建立損失函數(shù),所述損失函數(shù)為:
L=Le+λLr;
其中,L為損失函數(shù)、Le為實(shí)體抽取損失、Lr為關(guān)系抽取損失、λ為權(quán)重超參數(shù)。
5.根據(jù)權(quán)利要求4所述的一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于,所述實(shí)體抽取損失Le取正確標(biāo)記概率p(y|X)的最大值,所述實(shí)體抽取損失Le為:
所述關(guān)系抽取損失為:
其中,X為輸入的句子序列;Y表示X可生成的所有序列;y指其中的一個(gè)預(yù)測(cè)序列;為CRF分?jǐn)?shù);Lem為訓(xùn)練集上的基于邊界的排序損失函數(shù);為前向LSTM損失函數(shù);為反向LSTM損失函數(shù);指預(yù)測(cè)的特征向量。
6.根據(jù)權(quán)利要求5所述的一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于,所述訓(xùn)練集上的基于邊界的排序損失函數(shù)為:
所述前向LSTM損失函數(shù)為:
所述反向LSTM損失函數(shù)為:
其中,t為任意一個(gè)三元組;T為三元組集合;t’為負(fù)三元組;T’為負(fù)三元組集合;f(t')為負(fù)三元組的評(píng)分函數(shù);為負(fù)三元組前向LSTM輸出的評(píng)分函數(shù);為負(fù)三元組反向LSTM輸出的評(píng)分函數(shù);γ為用于約束正樣例和負(fù)樣例之間邊界的超參數(shù);為前向LSTM輸出的評(píng)分函數(shù);為反向LSTM輸出的評(píng)分函數(shù)。
7.根據(jù)權(quán)利要求1所述的一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法,其特征在于,所述根據(jù)所述實(shí)體關(guān)系聯(lián)合抽取模型進(jìn)行三元組抽取包括:
用下列得分函數(shù)的最高分的序列來對(duì)所述實(shí)體標(biāo)簽進(jìn)行預(yù)測(cè):
為假設(shè)的通過預(yù)測(cè)的實(shí)體的集合,對(duì)于候選實(shí)體對(duì)生成初始的三元組集合所述初始的三元組滿足函數(shù)對(duì)于每一實(shí)體對(duì),當(dāng)滿足:
時(shí),即為唯一選擇的三元組;
其中,m是候選實(shí)體的數(shù)量;指每個(gè)單詞的實(shí)體預(yù)測(cè)結(jié)果;指根據(jù)實(shí)體預(yù)測(cè)結(jié)果獲得的候選三元組;指候選三元組的集合;指預(yù)測(cè)的特征向量;X指輸入的句子序列;Y表示X可生成的所有序列;為CRF分?jǐn)?shù);R指關(guān)系集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810993387.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開關(guān)系統(tǒng)
- 視頻視覺關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開關(guān)系統(tǒng)
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動(dòng)臺(tái)
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于自主學(xué)習(xí)群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標(biāo)種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護(hù)用H型鋼構(gòu)件
- 用于云環(huán)境的語義元聯(lián)合代理





