[發(fā)明專利]基于注意力機制的實體關(guān)系抽取方法、裝置、介質(zhì)和設(shè)備有效
| 申請?zhí)枺?/td> | 202110053273.2 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112800774B | 公開(公告)日: | 2023-07-18 |
| 發(fā)明(設(shè)計)人: | 姜小波;楊博睿;何嘉俊;鄧家風(fēng) | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/295;G06F40/211;G06F18/2415;G06N3/047;G06N3/0464;G06N3/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 霍健蘭;梁瑩 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機制 實體 關(guān)系 抽取 方法 裝置 介質(zhì) 設(shè)備 | ||
本發(fā)明提供了一種基于注意力機制的實體關(guān)系抽取方法、裝置、介質(zhì)和設(shè)備。其中方法包括如下步驟:將原始文本的內(nèi)容進行預(yù)處理,并輸入到BERT預(yù)訓(xùn)練模型得到文本句子每個單詞的文本向量表示;將文本向量輸入卷積神經(jīng)網(wǎng)絡(luò)得到句子卷積特征向量;將文本向量經(jīng)過注意力權(quán)重計算單元得到包含實體信息的語義上下文向量;之后連接成特征向量,然后經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)和SoftMax函數(shù)計算得到不同類別的概率,其中最大的概率對應(yīng)的就是實體對的實體關(guān)系類型。本發(fā)明通過計算實體信息注意力得到句子中每個單詞對于每個實體的相關(guān)程度,依靠詞級注意機制來選擇重要的信息來進行關(guān)系的表示,使得實體關(guān)系抽取的精確率、召回率更高。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更具體地說,涉及一種基于注意力機制的實體關(guān)系抽取方法、裝置、介質(zhì)和設(shè)備。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,使得網(wǎng)絡(luò)上的信息爆炸式增長。這些海量的數(shù)據(jù)中包含了大量有用的信息,如何利用自然語言處理技術(shù)有效采集并運用這些海量數(shù)據(jù)是大數(shù)據(jù)時代的一個重要課題。
信息抽取(Information?Extraction)為解決上述問題提供了新的思路,其目的是從半結(jié)構(gòu)化或者非結(jié)構(gòu)化的自然語言文本中提取出有用信息,并整理成結(jié)構(gòu)化內(nèi)容。實體關(guān)系抽取作為其中重要的子任務(wù)之一,自然受到了廣大學(xué)者的關(guān)注。實體關(guān)系抽取的主要任務(wù)是將句子中的命名實體識別出來后,判斷實體之間的相互關(guān)系,并將其抽取出來。目前的許多自然語言處理任務(wù)都依賴于命名實體識別和實體關(guān)系等基礎(chǔ)任務(wù),例如,知識圖譜中需要實體與實體關(guān)系來進行填充,才能構(gòu)成完整的知識圖譜。此外,在語義角色標(biāo)注、文本情感分析和機器翻譯等領(lǐng)域中也經(jīng)常用到實體關(guān)系。因此,研究實體關(guān)系抽取對整個自然語言處理領(lǐng)域來說具有重要意義。
目前國內(nèi)外使用最為廣泛的的實體關(guān)系抽取方法是有監(jiān)督學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)方法是通過使用已經(jīng)標(biāo)注的數(shù)據(jù)集來訓(xùn)練機器學(xué)習(xí)模型,將得到泛化好的模型對測試數(shù)據(jù)的關(guān)系類型進行分類。有監(jiān)督學(xué)習(xí)方法主要包括:基于特征的方法、基于核函數(shù)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。
最近,越來越多人關(guān)注神經(jīng)網(wǎng)絡(luò)模型在NLP任務(wù)可以減少特征工程的能力.此外,一些研究人員也在實體關(guān)系抽取領(lǐng)域關(guān)注神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)。2012年Socher等人引入了遞歸神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)任意句法類型和長度的短語和句子的組合向量表示。2014年Zeng等人利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行關(guān)系分類。2015年Xu等人利用長短期記憶(LSTM)的遞歸神經(jīng)網(wǎng)絡(luò)來尋找最短依賴路徑。
然而,現(xiàn)階段這些神經(jīng)網(wǎng)絡(luò)模型設(shè)計時都是把句子中所有單詞看做同等重要,并且每個單詞對實體對關(guān)系判斷的貢獻也是相同的,然而,并非所有的詞對實體對關(guān)系的表示都有同樣的貢獻,例如:Thee1burst/e1has?been?caused?by?water?hammere2pressure/e2,在這句話中,“caused”在確定“原因-后果”的關(guān)系中具有特別重要的意義。因此,如何找到?jīng)Q定實體對關(guān)系的關(guān)鍵詞是一項重要的任務(wù)。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)中的缺點與不足,本發(fā)明的目的在于提供一種基于注意力機制的實體關(guān)系抽取方法、裝置、介質(zhì)和設(shè)備;本發(fā)明在注意力計算過程中,將句子中的每個單詞和每個實體都遣送到注意力權(quán)重計算單元,得到一個歸一化重要性權(quán)重,用來表示句子中每個單詞對于每個實體的相關(guān)程度,然后把這個相關(guān)程度也融合到特征向量中,達到找到?jīng)Q定語義信息關(guān)鍵詞的目的,從而提高實體關(guān)系抽取性能。
為了達到上述目的,本發(fā)明通過下述技術(shù)方案予以實現(xiàn):一種基于注意力機制的實體關(guān)系抽取方法,其特征在于:包括如下步驟:
S1,將原始文本的內(nèi)容進行預(yù)處理,并輸入到BERT預(yù)訓(xùn)練模型中進行詞嵌入處理,得到文本句子每個單詞的文本向量表示;
S2,將詞嵌入后的文本向量輸入卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)造句子的分布式表示,從而得到句子卷積特征向量
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110053273.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





