[發明專利]基于BLSTM和注意力機制的電子病歷實體關系抽取方法在審
| 申請號: | 201810207151.2 | 申請日: | 2018-03-14 |
| 公開(公告)號: | CN108536754A | 公開(公告)日: | 2018-09-14 |
| 發明(設計)人: | 李智;楊金山;李健 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 注意力機制 電子病歷 特征向量 抽取 知識庫 電子病歷信息 工具包 技術途徑 句子級別 文本內容 向量編碼 專業詞典 自動學習 自然語句 分類器 映射 向量 語句 捕獲 上層 | ||
本發明提出一種基于BLSTM和注意力機制的電子病歷實體關系抽取方法。該方法首先通過word2vec工具包將電子病歷自然語句映射成為基本特征向量,然后利用BLSTM將基本特征向量編碼成上層特征向量,接著利用基于詞和句子級別的注意力機制捕獲表征實體關系的重要文本內容以形成更高層次的特征向量,最后將得到的特征向量輸入到softmax分類器中,抽取該語句中所有實體對之間的實體關系。另外,本方法沒有利用任何依賴于任何知識庫和專業詞典來生成基本特征,降低了模型對人工特征工程的依賴性,為自動學習電子病歷信息提供了技術途徑。
技術領域
本發明屬于自然語言處理領域,用于自動抽取電子病歷中實體對之間的實體關系。
背景技術
隨著信息時代的到來,各領域數據呈爆炸式增長。具體到醫療領域中,積累了大量包含著醫療健康領域知識的電子病歷文本。在這種背景下,從非結構化的電子病歷中抽取相關信息成為了獲取醫療知識的關鍵,具有重要的應用價值。電子病歷實體對之間的關系抽取是其核心任務之一。
目前,電子病歷的實體關系抽取主要是采用有監督的機器學習,該方法首先對候選實體進行特征選擇,加入醫療知識作為輔助分析,并將抽取得到的特征轉化為特征向量,在向量空間模型中進行有監督學習的分類判別,由此而得到實體對的關系。具體又主要分為基于規則、基于特征向量2個研究方向:基于規則方法根據待處理語料涉及領域的不同,通過人工總結歸納出相應的規則或模板,然后采用模板匹配的方法進行實體關系抽取。基于特征向量的方法主要思想是從句子中提取詞法、語法信息來構造特征向量,通過計算特征向量的相似度來訓練實體關系抽取模型。但是,這些方法存在一些明顯的缺點:
(1)模型的性能極大程度依賴于手工特征工程的質量而導致其泛化性能較差,而且十分耗時
(2)規則制定依賴于專家知識和人工歸納
(3)模型過度依賴于知識庫和其他NLP系統
發明內容
本發明為了降低現存電子病歷實體關系抽取模型對于手工特征工程質量的依賴性和提高模型正確識別實體關系的性能,提出了基于BLSTM和注意力機制的電子病歷實體關系抽取方法。為了實現上述目的,該方法首先通過word2vec工具包將電子病歷自然語句映射成為基本特征向量,然后利用BLSTM自動將基本特征向量編碼成上層特征向量,接著利用基于詞和句子級別的注意力機制捕獲表征實體關系的重要文本內容以形成更高層次的特征向量,最后將得到的特征向量輸入到softmax分類器中,抽取該語句中所有實體對之間的實體關系。另外,本方法沒有利用任何依賴于任何知識庫和專業詞典來生成基本特征,降低了模型對人工特征工程的依賴性
附圖說明
圖1是該電子病歷實體關系抽取模型系統框架圖。
圖2是循環神經網絡(LSTM)單個神經元示意圖。
圖3是本發明中提出的電子病歷實體關系抽取方法流程圖。
具體實施方式
下面結合具體實施方式對本發明做進一步的詳細說明:
1.得到輸入基本特征向量表示
該基本特征向量主要由輸入語句詞本身(W)、每個詞到實體對的相對距離和詞類型3個部分連接構成
1)詞本身(W)特征:
對于給定的具有n個單詞的句子S={x1,x2,…,xn},我們首先利用word2vec工具包將每個單詞轉換成低維度的實數向量。單詞表示是通過嵌入矩陣中的列向量編碼的,其中V是一個固定大小的詞典,dw是嵌入矩陣的大小
2)每個詞到實體對的相對距離特征:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810207151.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:重復信息的確定方法及相關裝置
- 下一篇:一種信息標簽的管理方法及管理系統





