[發(fā)明專利]基于類型關(guān)聯(lián)特征增強的領(lǐng)域文本實體關(guān)系抽取方法有效
| 申請?zhí)枺?/td> | 202310440331.6 | 申請日: | 2023-04-23 |
| 公開(公告)號: | CN116167368B | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計)人: | 相艷;趙學(xué)東;柳如熙;線巖團(tuán) | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06N3/08;G06N3/0464;G06F40/242 |
| 代理公司: | 昆明隆合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 類型 關(guān)聯(lián) 特征 增強 領(lǐng)域 文本 實體 關(guān)系 抽取 方法 | ||
本發(fā)明涉及基于類型關(guān)聯(lián)特征增強的領(lǐng)域文本實體關(guān)系抽取方法,屬于實體關(guān)系抽取技術(shù)領(lǐng)域。本發(fā)明包括步驟:首先,構(gòu)建包含類型表征的領(lǐng)域詞典;然后,通過交互門控機制將詞匯類型間關(guān)系表征與頭、尾實體表征融合;最后,使用argmax(?)函數(shù)將融合類型關(guān)聯(lián)特征的實體對特征解碼,預(yù)測實體關(guān)系。本發(fā)明在中文醫(yī)療信息處理挑戰(zhàn)榜CBLUE上的中文醫(yī)學(xué)文本實體關(guān)系抽取數(shù)據(jù)集(CMeIE)上進(jìn)行了實驗,結(jié)果表明本發(fā)明的性能相比其他基模型獲得了明顯提高。
技術(shù)領(lǐng)域
本發(fā)明涉及基于類型關(guān)聯(lián)特征增強的領(lǐng)域文本實體關(guān)系抽取方法,屬于實體關(guān)系抽取技術(shù)領(lǐng)域。
背景技術(shù)
實體關(guān)系是隱藏在大量文本中的重要知識,通過實體之間的關(guān)系人們可以獲得事物之間的聯(lián)系,構(gòu)建知識網(wǎng)絡(luò)。關(guān)系知識以三元組的形式表現(xiàn)。例如,在句子“吞咽困難是食道癌最常見的癥狀”中蘊含三元組(食道癌,吞咽困難,臨床表現(xiàn)),其中頭實體是“食道癌”、關(guān)系是“臨床表現(xiàn)”、尾實體是“吞咽困難”。這一對三元組可以表明吞咽困難是食道癌的臨床表現(xiàn)。關(guān)系抽取的任務(wù)就在于從文本中抽取實體關(guān)系三元組。早期的關(guān)系抽取通常是給定文本及文本中的兩個實體,判斷實體之間的關(guān)系。一組三元組包括頭實體、尾實體以及它們之間關(guān)系,但一段文本中可能只有一對實體關(guān)系,也有可能包含多對實體關(guān)系,一個實體可能與兩個不同實體有著不同的關(guān)系。
目前,關(guān)系抽取的主要研究內(nèi)容是基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取(neural?networkrelationship?extraction,NRE)模型,神經(jīng)網(wǎng)絡(luò)可以從文本中自動提取語義特征。和傳統(tǒng)方法相比,NRE主要使用詞嵌入和位置嵌入而不是人工特征作為輸入。詞嵌入是NLP中最常見的輸入表示,它通過將語義編碼成向量來實現(xiàn)對單個詞的處理。通過位置嵌入,可以精確地定義一個詞與另一個實體之間的距離,從而更好地捕捉文本中的細(xì)節(jié)信息。NRE研究的重點是利用各種網(wǎng)絡(luò)架構(gòu)來捕捉文本中的關(guān)系語義。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以有效地模擬局部文本模式;循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以更好地處理長序列數(shù)據(jù);圖形神經(jīng)網(wǎng)絡(luò)(GNN)可以用來構(gòu)建單詞/實體圖進(jìn)行推理;注意力機制可以使神經(jīng)網(wǎng)絡(luò)聚集全局關(guān)系信息。例如,Dligach等人將CNN和LSTM的輸出融合在不同類型的注釋序列上,得到了一個集成的分類器,在THYME數(shù)據(jù)集上取得了良好的效果;Christopoulou等人將BiLSTM與注意力機制和轉(zhuǎn)化器分別應(yīng)用于句內(nèi)和句間實體關(guān)系的提取;通過將圖遞歸網(wǎng)絡(luò)(GRN)和BiLSTM技術(shù)相結(jié)合,Song等人大大提升了BiLSTM模型的準(zhǔn)確率。最近,Transformer和預(yù)訓(xùn)練的語言模型例如BERT也被用于NRE,取得了新的頂級性能。Xue等人利用基于BERT的Attention機制實現(xiàn)了命名實體識別和實體關(guān)系抽取的多任務(wù)處理。
大多數(shù)傳統(tǒng)的關(guān)系抽取任務(wù)是對一個句子中兩個給定實體之間的關(guān)系進(jìn)行預(yù)測。然而,一個句子可能包含不止一對實體關(guān)系,且一個實體可能與多個實體有不同的關(guān)系。因此,目前在關(guān)系提取方面的許多工作都集中在如何預(yù)測句子中多個頭、尾實體之間的關(guān)系。例如,Wei等人提出了一個重疊三元組抽取方法,其中一個頭或尾實體與多個實體有不同的關(guān)系。Chen?等人通過重新標(biāo)記噪聲解決了遠(yuǎn)距離監(jiān)督三元組抽取中的噪聲問題。
目前,一些深度學(xué)習(xí)模型如CNN、RNN、LSTM等被廣泛用于領(lǐng)域的關(guān)系提取。例如,張等人把卷積神經(jīng)網(wǎng)絡(luò)與支持向量機、條件隨機場相結(jié)合,構(gòu)建了聯(lián)合神經(jīng)網(wǎng)絡(luò)模型用于實體及關(guān)系抽取;趙等人提出了基于預(yù)訓(xùn)練模型的混合神經(jīng)網(wǎng)絡(luò)方法;Lai等人提出了基于知識增強的生物醫(yī)學(xué)實體關(guān)系抽取模型,可以利用外部知識輔助模型預(yù)測;Wang?等人提出了一個基于語料庫統(tǒng)計的模型框架,使醫(yī)學(xué)文本關(guān)系提取可解釋化;武等人提出了基于全詞mask的BERT卷積神經(jīng)網(wǎng)絡(luò)(BERT(wwm)-CNN)模型用于提升中文心血管醫(yī)療語料中關(guān)系抽取的性能。這些工作都取得了較好的效果,但他們沒有很好地利用實體類別關(guān)聯(lián)信息。實體類別對確定關(guān)系有很大幫助,利用類別關(guān)聯(lián)信息可以提高關(guān)系抽取性能。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310440331.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報文關(guān)聯(lián)方法、報文關(guān)聯(lián)裝置及報文關(guān)聯(lián)系統(tǒng)





