[發(fā)明專利]基于新型關(guān)系注意力機制的實體關(guān)系抽取方法及設(shè)備在審
| 申請?zhí)枺?/td> | 202010774426.8 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN112084778A | 公開(公告)日: | 2020-12-15 |
| 發(fā)明(設(shè)計)人: | 尹帆;毛養(yǎng)勤;覃俊;李子茂;毛騰躍;劉晶;廖立婷 | 申請(專利權(quán))人: | 中南民族大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 武漢知產(chǎn)時代知識產(chǎn)權(quán)代理有限公司 42238 | 代理人: | 孔燦 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 新型 關(guān)系 注意力 機制 實體 抽取 方法 設(shè)備 | ||
本發(fā)明提供基于新型關(guān)系注意力機制的實體關(guān)系抽取方法,包括以下:采用PCNN模型提取句子的語義向量;根據(jù)句子包中每個句子的語義向量,采用NATT注意力機制,提取句子包的特征向量;將句子包的特征向量輸入至sofmax分類器,得到句子包中每個句子的語義向量和關(guān)系向量之間關(guān)系的置信度。本發(fā)明提供的有益效果是:提高了關(guān)系向量表示的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息抽取技術(shù)領(lǐng)域,尤其涉及基于新型關(guān)系注意力機制的實體關(guān)系抽取方法。
背景技術(shù)
近年來,互聯(lián)網(wǎng)信息的爆炸式增長給人們快速而精確地獲取需要的信息帶來了巨大的困難。信息抽取技術(shù)能夠?qū)ξ谋具M(jìn)行深層的分析,從而為用戶提供更準(zhǔn)確的信息服務(wù)。關(guān)系抽取是信息抽取的主要任務(wù)之一,指對文本中所含實體對進(jìn)行語義關(guān)系分類,在智能問答、知識庫構(gòu)建等領(lǐng)域扮演著重要的角色。
目前,實體關(guān)系抽取最常用的方法是有監(jiān)督方式,雖然其抽取效果明顯、準(zhǔn)確率高,但該方法需要大量的人工標(biāo)注語料,耗時耗力,限制了大規(guī)模的實體關(guān)系抽取。針對其語料的問題,Mintz等人嘗試使用FreeBase知識庫來代替手工標(biāo)注語料,他們利用Freebase與自由文本對齊得到大量的標(biāo)注訓(xùn)練語料,Mintz稱這種監(jiān)督方法為遠(yuǎn)程監(jiān)督。其思想基于一種假設(shè):如果兩個實體之間存在知識庫中的某種關(guān)系,那么含有這兩個實體的句子或多或少都表達(dá)了這種關(guān)系。很明顯這種假設(shè)存在不嚴(yán)謹(jǐn)?shù)牡胤剑肓嗽S多噪聲標(biāo)注數(shù)據(jù)。如何降噪成為了我們需要進(jìn)一步解決的問題。
現(xiàn)有技術(shù)提出了分段PCNN網(wǎng)絡(luò)來提取句子的語義向量,從關(guān)系矩陣中查詢出標(biāo)簽所對應(yīng)的關(guān)系向量,然后利用其與句子做相似性計算,相似性越高,則權(quán)重越高,反之,則越低。其PCNN網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層,卷積層,池化層。
另外還有一種基于深度學(xué)習(xí)的方法,該方法利用深度學(xué)習(xí)模型PCNN網(wǎng)絡(luò)提取每個句子的語義向量,其次利用Freebase知識庫中實體背景知識訓(xùn)練實體向量,最后利用實體相減得到關(guān)系向量,計算出每個句子對應(yīng)這個關(guān)系的權(quán)重,如果句子表達(dá)了此關(guān)系,則權(quán)重越高,反之,則越低。
上述兩種方法均利用關(guān)系向量與PCNN網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,其得到的關(guān)系向量表示關(guān)系語義存在不準(zhǔn)確的情況,例如:斯內(nèi)普深情的看著莉莉。----戀人。兩實體相減得不到戀人這個關(guān)系。因為戀人是“深情的”來體現(xiàn)的。。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了基于新型關(guān)系注意力機制的實體關(guān)系抽取方法,包括以下:
S101:獲取有標(biāo)簽數(shù)據(jù);所述有標(biāo)簽數(shù)據(jù)具體為有標(biāo)簽的句子包;
S102:采用PCNN模型提取所述有標(biāo)簽的句子包中每個句子的語義向量;所述PCNN模型包括輸入層、卷積層和池化層;
S103:根據(jù)所述有標(biāo)簽的句子包中每個句子的語義向量,采用NATT注意力機制,提取所述有標(biāo)簽的句子包的特征向量;
S104:將所述有標(biāo)簽的句子包的特征向量輸入至sofmax分類器,得到所述有標(biāo)簽句子包中每個句子的語義向量和關(guān)系向量之間關(guān)系的置信度;所述關(guān)系向量具體為根據(jù)所述有標(biāo)簽的句子包的原始向量隨機生成的初始化向量。
進(jìn)一步地,步驟S101中,獲取有標(biāo)簽數(shù)據(jù),具體方式為:采用遠(yuǎn)程監(jiān)督方法通過自動對齊遠(yuǎn)程知識庫獲取有標(biāo)簽數(shù)據(jù)集。
進(jìn)一步地,步驟S102中,采用PCNN模型提取所述有標(biāo)簽的句子包中每個句子的語義向量,具體步驟為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南民族大學(xué),未經(jīng)中南民族大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010774426.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





