[發(fā)明專利]一種基于知識圖譜嵌入的多三元組聯(lián)合抽取方法有效
| 申請?zhí)枺?/td> | 202010198105.8 | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN111444305B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計)人: | 陳華鈞;余海陽;鄧淑敏;張寧豫 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F40/30;G06N3/04 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 知識 圖譜 嵌入 三元 聯(lián)合 抽取 方法 | ||
1.一種基于知識圖譜嵌入的多三元組聯(lián)合抽取方法,其特征在于,包括:
(1)獲取文本語句,對文本語句進(jìn)行處理,得到處理后的文本語句矩陣;
(2)將處理后的文本語句矩陣輸入到Transformer模型中提取文本語句的語義信息,得到文本語句的語義特征向量;
(3)利用步驟(2)得到的語義特征向量對Transformer模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的Transformer模型;
所述的訓(xùn)練過程包括:
(3.1)將步驟(2)中得到的文本語句的語義特征向量,得到文本語句的實體標(biāo)注預(yù)測矩陣,將實體標(biāo)注預(yù)測矩陣中的實體標(biāo)注預(yù)測值與真實標(biāo)注結(jié)果對比后,求得實體識別交叉熵?fù)p失loss1,其中,loss1的計算公式為式(1)所示:
其中,C為標(biāo)注的總類別數(shù);pi為真實結(jié)果;qi為實體標(biāo)注預(yù)測矩陣E中具體的一個實體預(yù)測值;
(3.2)將步驟(2)中得到的文本語句的語義特征向量用于關(guān)系分類任務(wù),得到語句實體詞關(guān)系分類矩陣,將語句實體詞關(guān)系分類矩陣中實體詞關(guān)系與真實關(guān)系對比,求取關(guān)系分類的實體識別交叉熵?fù)p失loss2,包括:關(guān)系分類任務(wù)包括:
(3.2.1)將文本語句的語義特征向量經(jīng)過全連接層及擠壓函數(shù)變換后,得到關(guān)系向量;所述的關(guān)系向量的計算公式為式(2)所示:
rc=squash(hnWR) (2)
其中,rc為關(guān)系向量;WR∈RV×C,WR為訓(xùn)練過程中的參數(shù);C為關(guān)系種類數(shù);squash為擠壓變換函數(shù);
(3.2.2)利用關(guān)系向量求出關(guān)系向量中每種關(guān)系的概率,利用每種關(guān)系的概率計算交叉熵?fù)p失loss2;
所述的每種關(guān)系的概率的計算公式為式(3)所示:
pi=sigmoid(‖rC‖2) (3)
其中,pi為關(guān)系向量中每種關(guān)系的概率;
所述的交叉熵?fù)p失loss2的計算公式為式(4)所示:
其中,C為關(guān)系的總類別數(shù);yi為真實結(jié)果;pi為關(guān)系向量中每種關(guān)系的概率;
(3.3)利用文本語句的實體標(biāo)注預(yù)測矩陣和文本語句的語句實體詞關(guān)系分類矩陣構(gòu)造實體詞關(guān)系,利用知識嵌入約束方法,求得關(guān)系矩陣,將關(guān)系矩陣中真實存在的關(guān)系與不存在的關(guān)系對比,求取關(guān)系的交叉熵?fù)p失loss3,其中,交叉熵?fù)p失loss3的計算公式為式(5)所示:
其中,(h,r,t)為存在關(guān)系r的正樣本;(h′,r′,t′)為不存在關(guān)系r′的負(fù)樣本;γ為正樣本和負(fù)樣本之間的最小分隔,為超參數(shù),設(shè)置為γ=1;采用知識嵌入約束計算方法,計算知識圖譜嵌入下fr(h,t)評分函數(shù);
(3.4)基于梯度下降的優(yōu)化算法,利用loss1、loss2和loss3計算最小化總的損失函數(shù)loss,迭代求解直至損失值收斂,得到訓(xùn)練后的Transformer模型;
(4)利用待預(yù)測文本語句輸入步驟(3)中訓(xùn)練后的Transformer模型,得到預(yù)測文本語句的預(yù)測語義特征向量,完成多個三元組聯(lián)合抽取方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010198105.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機(jī)設(shè)備
- 一種支持增量實體關(guān)聯(lián)的關(guān)系圖譜計算方法





