[發明專利]基于上下文相關的醫學命名實體識別方法有效
| 申請號: | 201811190380.4 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109522546B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 黃正行;葛臻曉;段會龍 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 上下文 相關 醫學 命名 實體 識別 方法 | ||
本發明公開了一種基于上下文相關的醫學命名實體識別方法,包括以下步驟:(1)將電子病歷記錄數據分為訓練數據和測試數據兩部分,并對訓練數據進行標注,標注后的訓練數據中包含病例原始文本和實體標注;(2)以雙向長短時記憶網絡為基礎,引入上下文依賴,建立基于Bi?LSTM的醫學命名實體識別模型,使用訓練數據訓練,得到訓練后的醫學命名實體識別模型;(3)將測試數據輸入醫學命名實體識別模型中,得到命名實體的最優標注序列。本發明提供的方法可以有效地提取出病例文本中的身體部位,癥狀,癥狀描述,藥物,手術等信息,同時在加入上下文依賴層后,精度相比原始的Bi?LSTM有所提升。
技術領域
本發明屬于數據處理領域,具體涉及一種基于上下文相關的醫學命名實體識別的方法。
背景技術
隨著電子病歷系統的發展,積累了越來越多的電子病例文本數據,在有效利用這些病例文本中,命名實體識別是一項非常基礎的技術。通過命名實體識別,可以有效地提取出病例文本中諸如身體部分,癥狀,手術等信息,為后續進一步的數據分析提供基礎。
目前現有技術中關于命名實體識別的方法主要采用的是基于Bi-LSTM或Bi-LSTM+CRF的方法。公開號為CN107644014A的中國專利文獻公開了一種基于雙向LSTM和CRF的命名實體識別方法,該方法是基于現有的傳統命名實體識別算法進行的改進優化,具體步驟如下:(1)對文本進行預處理,提取文本詞組信息和字符信息;(2)利用雙向LSTM神經網絡對文本字符信息進行編碼轉換成字符向量;(3)利用glove模型對文本詞組信息進行編碼轉換成詞向量;(4)將字符向量和詞向量組合成上下文信息向量,并放入雙向LSTM神經網絡中;(5)利用線性鏈條件隨機場對雙向LSTM的輸出進行解碼,得到文本標注實體。公開號為CN107908614的中國專利文獻公開了一種基于Bi-LSTM的命名實體識別方法。該方法包括:1)對命名實體識別的訓練語料進行標注,形成標注語料;2)將標注語料中的詞和字符轉化為向量;3)利用詞和字符的向量建立基于Bi-LSTM的命名實體識別模型,并訓練該命名實體識別模型的參數;4)利用訓練好的命名實體識別模型,對待預測的數據進行命名實體識別預測。
但基于Bi-LSTM或Bi-LSTM+CRF的命名實體識別方法的精確度較低,如何提升其準確性并應用于電子病歷文本中,是亟需解決的問題。
發明內容
本發明的目的是提供一種基于上下文相關的醫學命名實體識別的方法,可以有效地提取出病例文本中的身體部位,癥狀,癥狀描述,藥物,手術等信息,同時在加入上下文依賴層后,精度相比原始的Bi-LSTM有所提升。
為實現上述目的,本發明提供以下技術方案:
基于上下文相關的醫學命名實體識別方法,包括以下步驟:
(1)將電子病歷記錄數據分為訓練數據和測試數據兩部分,并對訓練數據進行標注,標注后的訓練數據中包含病例原始文本和實體標注;
(2)以雙向長短時記憶網絡為基礎,引入上下文依賴,建立基于Bi-LSTM的醫學命名實體識別模型,使用訓練數據訓練,得到訓練后的醫學命名實體識別模型;
(3)將測試數據輸入醫學命名實體識別模型中,得到命名實體的最優標注序列。
在步驟(1)中,所述的訓練數據中:
病歷原始文本為X={x1,…,xT},包含了T長度的中文字符;
實體標注為Y={y1,…,yT},與病歷原始文本相對應并等長的實體類別標簽,其中yi來自于BMESO標簽,B、M、E、S和O分別代表了實體的開始、中間、結束、單字實體以及非實體的標簽;標簽后對應的實體類別包括身體部位、癥狀、癥狀描述、手術和藥物。
在步驟(2)中,使用訓練數據訓練的過程中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811190380.4/2.html,轉載請聲明來源鉆瓜專利網。





