[發明專利]一種基于集中注意力模型的實體、關系聯合學習方法有效
| 申請號: | 201910767329.3 | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110570920B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 翟潔;薛魁;張歡歡;葉琪;阮彤;周揚名;馬致遠 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集中 注意力 模型 實體 關系 聯合 學習方法 | ||
本發明提供一種基于集中注意力模型的實體、關系聯合學習方法,其特征在于,包括以下步驟:首先,臨床文本序列以[CLS]Sequence[SEP]的形式輸入Embedding層,得到每個字的初始向量表示Hsubgt;0/subgt;;接著,將Hsubgt;0/subgt;輸入多頭自注意力機制的前N?K層,輸出每個字的上下文表示信息Hsubgt;m/subgt;;然后,將Hsubgt;m/subgt;輸入余下K層,得到對應實體識別和關系抽取任務的字向量表示最后,輸入利用矩陣MASKsupgt;task/supgt;、實體識別或關系分類下游任務層進行學習后,輸出實體和關系信息。實驗結果表明本發明方法在實體識別、關系抽取、聯合學習方面均明顯優于其他方法,表明其有效性。
技術領域
本發明涉及面向臨床文本的實體、關系聯合學習技術領域,更為具體地,尤其涉及一種基于集中注意力模型的實體、關系聯合學習方法。
背景技術
近幾年來,隨著電子病歷的廣泛應用,大量的電子病歷數據可以在不同醫療環境中整合共享,并給醫生的臨床決策及政府部門衛生政策的制定提供數據支持。然而,目前的電子病歷中大多數信息以自然語言的形式存儲,現有的數據挖掘算法無法直接加工和處理這些數據。為了將電子病歷文本結構化成算法可以處理的數據,利用實體識別和關系抽取算法基于中心詞從臨床文本中抽取實體-關系三元組,然后將三元組轉換為數據挖掘算法可以處理的鍵值對。
從臨床文本中抽取實體以及實體之間的關系(實體1-關系-實體2,三元組),目前有兩大類方法,分別是流水線的方法和聯合學習的方法。流水線的方法主要將實體識別和關系抽取任務分為兩個子任務,首先進行命名實體識別,對識別出來的實體進行兩兩組合,形成實體對,再對每個實體對進行關系分類。其中命名實體識別模型通常使用BiLSTM+CRF等,關系分類模型通常使用CNN等。流水線的方法存在的缺點有:1)錯誤傳播,實體識別模塊的錯誤會影響到下面的關系分類性能;2)忽視了兩個子任務之間存在的關系。聯合學習可以克服上面流水線方法的缺點,其主流方法可以再細分為兩種:參數共享、聯合標注策略。參數共享指的是命名實體識別模型與關系分類模型通過共享層聯合訓練,共享層的選擇非常重要,現有的方法一般采用word?embedding+BiLSTM網絡,但最近的研究表明現有的BiLSTM網絡得到字的上下文表示性能弱于BERT語言模型;聯合標注策略是指利用擴展的標注策略同時完成實體識別和關系抽取兩個任務。聯合標注策略法需要改變標注人員的原有習慣,增加學習成本。
發明內容
本申請實施例為解決上述技術問題,提供一種基于集中注意力模型的實體、關系聯合學習方法。其特征在于,包括以下步驟:
A1,臨床文本序列S的首尾分別加上[CLS]和[SEP],以[CLS]Sequence[SEP]的形式輸入Embedding層,得到序列S中每個字的初始向量表示H0;
A2,將向量表示H0輸入多頭自注意力機制的前N-K層,經過N-K層的迭代后輸出每個字的上下文表示信息Hm;
A3,將每個字的上下文表示信息Hm輸入多頭自注意力機制的余下K層,特定于任務的矩陣MASKtask將注意力集中到任務所需的字上,得到對應實體識別和關系抽取任務的字向量表示
A4,輸入字向量表示利用矩陣MASKtask、實體識別下游任務層、關系分類下游任務層進行聯合學習后,輸出識別的實體信息和抽取的關系信息。
優選地,在所述步驟A1中,其特征在于,臨床文本序列S以[CLS]Sequence[SEP]的形式輸入Embedding層,輸出序列S中每個字的由字編碼、位置編碼、類型編碼組成的初始向量表示H0,其表示為:
H0=LayerNorm(e_word(S)+e_pos(S)+e_type(S))
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910767329.3/2.html,轉載請聲明來源鉆瓜專利網。





