[發明專利]基于多特征信息增強的文本實體關系抽取方法有效
| 申請號: | 202011026497.6 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112163425B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 孟佳娜;董宇;趙丹丹 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F18/213;G06F18/25;G06N3/0464;G06N3/045;G06N3/0442;G06N3/047;G06N3/048 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 畢進 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 信息 增強 文本 實體 關系 抽取 方法 | ||
基于多特征信息增強的文本實體關系抽取方法,屬于信息抽取領域,為了解決深度學習的模型雖然能夠自動提取文本的語義特征,但提取的特征可解釋性不強,句子級特征向量未能表示實體自身的語義信息的問題,將文本映射為詞特征,并與外部特征結合作為特征信息嵌入模型,通過卷積神經網絡獲得更高層的局部特征,通過Bi?LSTM獲得特征之間的依賴關系和上下文特征信息,通過注意力機制關注重要的語義關系特征,效果是提取的特征可解釋性強,句子級特征向量能表示實體自身的語義信息。
技術領域
本發明屬于信息抽取領域,涉及一種基于多特征信息增強的文本實體關系抽取方法。
背景技術
實體關系抽取是信息抽取任務中重要的一部分,被廣泛用在信息檢索、問答系統中。國內在這方面的研究起步比較晚,但近年來,中國科學院、北京大學、清華大學等科研院所在推動其研究發展上做出了重要的貢獻。實體關系抽取在實現方法上,根據不同的模型,傳統的方法主要可以分為基于特征的方法和基于核函數的方法,而隨著深度學習的發展,實體關系抽取也慢慢從傳統的方法過度到了深度學習的方法,也取得了相較于傳統方法更加好的效果。在深度學習的方法中,主要采用基于CNN、RNN、LSTM及其改進的模型網絡結構等方法,因其高精度獲得了學術界的廣泛關注。
基于特征的方法,通過重點關注并提取文本中的重要特征來刻畫實體間的關系,如實體類型、依存樹和詞塊特征等,將其轉化成向量的形式,利用機器學習相關算法(如支持向量機、最大熵、條件隨機等)對關系特征進行抽取。該方法依賴特征的設計和自然語言處理各個工具(如命名實體識別、詞性標注、短語提取等)的準確率,因此,這樣的設計存在耗時和容易造成錯誤累積的問題,進而影響最終的抽取性能,且這些特征已經覆蓋了大多數可利用的語言現象,在性能方面也很難進一步得到提升。
基于核函數的方法,充分利用句子的特定組織形式,可以表示為字符串序列或樹結構,不需要顯式定義復雜地語義特征,通過設計核函數來計算對象在高維空間中的相似度,以獲取對象的結構化特征,并以此構建分類模型。Zelenko等人通過淺層句法分析進行樹核函數的設計;Culotta等人通過依存句法捕獲對象間的相似性來構造樹核函數;Bunescu等人將句法最短路徑與樹核函數進行了融合;Zhang等人利用卷積樹核句法特征的效果進行了探究。這類方法依賴核函數的設計,同樣受到自然語言處理工具的計算損失的影響,因此通用性不強。
基于深度學習的方法中,CNN的基本結構包含兩層,分別為特征提取層和特征映射層,特征提取層的每個神經元的輸入與前一層的局部接受域相連,進行局部特征的提取。特征映射層網絡的每個計算層由多個特征映射組成,每個特征映射表示為一個平面,平面上的所有神經元權值相等,減少了網絡模型中自由參數的數量。RNN進行實體關系抽取的方法由Socher等人在2012年首次提出的,論文中提出為分析樹中每個節點分配一個向量和一個矩陣,其中向量是為了捕獲特征組成部分的固有含義,而矩陣是為了捕捉當前特征如何改變相鄰單詞或短語的含義。由于梯度消失和梯度爆炸的問題,傳統的RNN在實際中很難處理長期依賴的長序列特征,隨著時間步的增長,后面的時間節點對前面的時間節點感知力也隨之下降,而利用LSTM網絡進行實體關系的抽取,通過三個門控操作減緩了這些問題,能夠從語料中學習到實體特征與語義信息的長期依賴關系。
深度學習的模型雖然能夠自動提取文本的語義特征,但提取的特征可解釋性不強,句子級特征向量未能表示實體自身的語義信息。深度學習中單個模型只能表示某一層面的特征,對于更多層面的特征表示不足。
發明內容
為了解決深度學習的模型雖然能夠自動提取文本的語義特征,但提取的特征可解釋性不強,句子級特征向量未能表示實體自身的語義信息的問題,本發明提出一種基于多特征信息增強的文本實體關系抽取方法,包括:
S1.將文本映射為詞特征,并與外部特征結合作為特征信息嵌入模型:通過one-hot對每個單詞形成V*1的向量,整個詞匯表則是V*V的矩陣,根據索引映射,將每個單詞映射到d維空間,每個單詞被映射成一個向量,所有單詞的矩陣是V*d,每個單詞與矩陣中的某列一一對應,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011026497.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





