[發明專利]基于BLSTM和注意力機制的電子病歷實體關系抽取方法在審
| 申請號: | 201810207151.2 | 申請日: | 2018-03-14 |
| 公開(公告)號: | CN108536754A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 李智;楊金山;李健 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 注意力機制 電子病歷 特征向量 抽取 知識庫 電子病歷信息 工具包 技術途徑 句子級別 文本內容 向量編碼 專業詞典 自動學習 自然語句 分類器 映射 向量 語句 捕獲 上層 | ||
1.基于BLSTM和注意力機制的電子病歷實體關系抽取方法,其特征在于:利用雙向LSTM神經網絡自動生成特征向量,降低現存電子病歷實體關系抽取模型對于手工特征工程質量的依賴性,引入注意力機制提高模型正確識別實體關系的性能,步驟如下:
步驟1、得到輸入基本特征向量表示
該基本特征向量主要由輸入語句詞本身(W)、每個詞到實體對的相對距離和詞類型3個部分連接構成
1)詞本身(W)特征:
對于給定的具有n個單詞的句子, 我們首先利用word2vec工具包將每個單詞轉換成低維度的實數向量,單詞表示是通過嵌入矩陣中的列向量編碼的,其中是一個固定大小的詞典,是嵌入矩陣的大小
2)每個詞到實體對的相對距離特征:
我們用矩陣來表征每個單詞到實體對的距離,其中是每個相對距離映射為實數向量后的維度,是一個可供用戶調整的超參數,是固定大小的詞典,即相對距離的范圍大小,其具體定義是當前單詞到頭部或者尾部實體的相對距離
3)詞類型特征:
在本方法中我們采用BIO標記法對所有單詞進行標記,并將其作為基本特征之一,類似的,我們用矩陣來表示它,其中是單詞所屬類別映射為向量后的維度,是詞類型特征矩陣的大小,即單詞所屬類別種類數量
最后,我們將上述3種基本特征拼接起來形成總的輸入特征向量序列,其中
步驟2、利用BLSTM網絡得到上層特征向量,其具體計算過程如下:
1)本方法中我們利用循環神經網絡來學習長距離語義信息形成上層特征向量,其單個神經元結構如圖2所示,具體而言,該LSTM模型主要涉及到遺忘門、更新門以及輸出門3個組成部分,其中遺忘門的計算過程如下:
(1)
其中,是logisticsigmoidfunction,和分別代表輸入和先前隱藏狀態,和 是將要學習的權重矩陣
同樣的,更新門計算方法為:
(2)
輸出門的激活函數計算方法:
(3)
其中,
(4)
2)進一步地,我們采用BLSTM去學習過去和未來文本語義信息,其結構如圖1的BLSTMencoder layer所示,所以上層特征向量通過下式計算:
(5)
其中,, 表示每個上層特征向量的維度,表示句子長度
步驟3、利用基于詞別的注意力機制(word-level attention)捕獲表征實體關系的重要文本內容,其具體計算過程如下:
1)word-levelattention的核心思想是在形成更高層次特征表示時需要為每個單詞設置一個可學習的權重向量,其計算過程如下:
(6)
(7)
則該層網絡的輸出,即一個句子的表示可通過下式得出:
(8)
步驟4、利用基于句子級別的注意力機制(sentence-level attention)來充分學習具有相同實體對和實體關系句子的語義信息,并用該機制解決誤標簽的問題,得到網絡的最終輸出
1)假設一個包含m個句子(具有同樣實體對,同樣實體關系)的集合,對于(sentence-level attention,我們為集合中的每一個句子賦予一個可學習的權重,然后將這些句子編碼成一個實數向量,和的計算方法如下:
(9)
(10)
(11)
其中是用來評價每個句子和關系的匹配程度,表示點乘,是注意力權值矩陣,是一個詢問向量
2)然后利用向量預測最終的關系,其計算過程如下
(12)
(13)
(14)
其中,是關系表示矩陣,是關系類型總數,是網絡的最終輸出
步驟5、關系判斷
1)這里,我們利用步驟4中的輸出來判斷實體對所屬關系類型,我們定義條件概率來預測句子集合所屬類別,計算過程如下:
(15)
(16)
2)代價函數定義如下:
(17)
其中是標簽的真實值,是每個類別的估計概率,是一個L2 正則化參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810207151.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:重復信息的確定方法及相關裝置
- 下一篇:一種信息標簽的管理方法及管理系統





