[發(fā)明專利]一種基于關(guān)系分解的端到端實(shí)體關(guān)系聯(lián)合抽取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210166252.6 | 申請日: | 2022-02-21 |
| 公開(公告)號: | CN114564563A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 張璇;高宸;杜鯤鵬;農(nóng)瓊;馬秋穎;袁子豪 | 申請(專利權(quán))人: | 云南大學(xué) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/242;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 51214 | 代理人: | 和占宏 |
| 地址: | 650091 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)系 分解 端到端 實(shí)體 聯(lián)合 抽取 方法 系統(tǒng) | ||
本發(fā)明公開一種基于關(guān)系分解的端到端實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,包括以下步驟:數(shù)據(jù)預(yù)處理:將訓(xùn)練集中標(biāo)注的實(shí)體和關(guān)系的三元組,根據(jù)BERT模型中的詞典轉(zhuǎn)化為向量的形式;模型訓(xùn)練:根據(jù)BERT模型輸出的文本向量進(jìn)行關(guān)系分類,然后將關(guān)系特征與句子特征相融合進(jìn)行頭尾實(shí)體識別:結(jié)果解碼:對不同關(guān)系類別下所識別的實(shí)體標(biāo)簽進(jìn)行解碼,并將其與關(guān)系相組合,從而得到句子中所存在的實(shí)體關(guān)系三元組。本發(fā)明通過對不同關(guān)系下的句子特征進(jìn)行建模,能夠有效地解決句子中重疊三元組的抽取問題,提升了實(shí)體關(guān)系聯(lián)合抽取的性能,具有良好的實(shí)用性。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)與自然語言處理技術(shù),具體涉及一種基于關(guān)系分解的端到端實(shí)體關(guān)系聯(lián)合抽取方法及系統(tǒng)。
背景技術(shù)
三元組抽取作為信息抽取中的重要組成部分,它是從一組非結(jié)構(gòu)化文本中以(頭實(shí)體,關(guān)系,尾實(shí)體)的形式獲取結(jié)構(gòu)化的知識,也叫做實(shí)體關(guān)系抽取。這是構(gòu)建知識圖譜的關(guān)鍵任務(wù)之一,是其他相關(guān)自然語言處理任務(wù)的重要基礎(chǔ),如:機(jī)器翻譯,文本摘要,推薦系統(tǒng)等。
早期的抽取方法大多采用基于流水線的方式來進(jìn)行實(shí)體關(guān)系抽取,這類方法將抽取任務(wù)視為兩個(gè)獨(dú)立的子任務(wù),分別是命名實(shí)體識別和關(guān)系分類。這種方法靈活性高,簡化了處理流程,但也存在缺點(diǎn),包括:誤差累積、實(shí)體冗余和交互缺失。
為了解決流水線抽取方式的缺陷,實(shí)體關(guān)系聯(lián)合提取使用一個(gè)模型來同時(shí)提取實(shí)體和關(guān)系。最初的聯(lián)合抽取方法大多是基于特征的模型,這些模型需要復(fù)雜的預(yù)處理過程,并依賴于特征提取工具,不僅工序繁雜,而且容易引入其他錯(cuò)誤。
為了減少人工進(jìn)行特征工程,開始利用神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的實(shí)體關(guān)系聯(lián)合抽取,并且分為聯(lián)合解碼方法和參數(shù)共享方法。聯(lián)合解碼方法采取新的標(biāo)注策略對實(shí)體和關(guān)系進(jìn)行統(tǒng)一標(biāo)注,將原來涉及到命名實(shí)體識別和關(guān)系分類的兩個(gè)子任務(wù)的聯(lián)合學(xué)習(xí)模型變成為一個(gè)序列標(biāo)注問題。參數(shù)共享方法通過共享聯(lián)合模型的編碼層參數(shù)來進(jìn)行聯(lián)合學(xué)習(xí),以此來實(shí)現(xiàn)兩個(gè)子任務(wù)之間的相互依賴。端到端聯(lián)合抽取方法可以利用實(shí)體和關(guān)系間的交互信息,同時(shí)抽取實(shí)體并分類實(shí)體對的關(guān)系,很好地解決了流水線方法所帶來的問題。然而傳統(tǒng)的實(shí)體關(guān)系聯(lián)合抽取方案只考慮了在一個(gè)句子中抽取一條三元組的情況。但實(shí)際上,如圖4所示,我們所抽取的句子中往往包含多個(gè)三元組,這些三元組還可能存在實(shí)體和關(guān)系重疊的情況。
發(fā)明內(nèi)容
本發(fā)明的發(fā)明目的在于:針對上述存在的問題,提供一種基于關(guān)系分解的端到端實(shí)體關(guān)系聯(lián)合抽取方法及系統(tǒng),通過對不同關(guān)系下的句子特征進(jìn)行分別提取,結(jié)合注意力機(jī)制,引入BERT預(yù)訓(xùn)練模型,來充分利用整個(gè)輸入句子的信息,解決重疊三元組的抽取問題,提升了實(shí)體關(guān)系聯(lián)合抽取的性能。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明一種基于關(guān)系分解的端到端實(shí)體關(guān)系聯(lián)合抽取方法,包括以下步驟:數(shù)據(jù)預(yù)處理:將待抽取實(shí)體關(guān)系的句子根據(jù)BERT所要求的格式進(jìn)行轉(zhuǎn)換,并轉(zhuǎn)化成為向量的形式,作為BERT模型的輸入;同時(shí)將三元組標(biāo)簽轉(zhuǎn)化為向量的形式;分別標(biāo)注出句子中的關(guān)系、頭實(shí)體和尾實(shí)體;
模型訓(xùn)練:將BERT模型輸出的文本向量,與注意力機(jī)制生成的句向量合并得到句子的最終向量表示,通過sigmoid函數(shù)進(jìn)行關(guān)系分類,識別出句子中的關(guān)系;并將獲取的關(guān)系特征與句子特征相融合進(jìn)行頭尾實(shí)體識別;
結(jié)果解碼:對不同關(guān)系類別下所識別的實(shí)體標(biāo)簽進(jìn)行解碼,并將其與關(guān)系相結(jié)合,從而得到句子中所存在的實(shí)體關(guān)系三元組。
作為優(yōu)選,數(shù)據(jù)預(yù)處理中的每個(gè)標(biāo)簽包含:句子所包含的關(guān)系類型,以及對應(yīng)的關(guān)系類型下的實(shí)體在句子中的位置;其中,根據(jù)每個(gè)關(guān)系類型生成兩組句子標(biāo)注序列,分別表示頭實(shí)體和尾實(shí)體在三元組中的位置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南大學(xué),未經(jīng)云南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210166252.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種脫鹽水生產(chǎn)裝置
- 下一篇:基于逆作操作的軌道梁制作方法





