[發明專利]基于上下文相關的醫學命名實體識別方法有效
| 申請號: | 201811190380.4 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109522546B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 黃正行;葛臻曉;段會龍 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 上下文 相關 醫學 命名 實體 識別 方法 | ||
1.基于上下文相關的醫學命名實體識別方法,包括以下步驟:
(1)將電子病歷記錄數據分為訓練數據和測試數據兩部分,并對訓練數據進行標注,標注后的訓練數據中包含病例原始文本和實體標注;
(2)以雙向長短時記憶網絡為基礎,引入上下文依賴,建立基于Bi-LSTM的醫學命名實體識別模型,使用訓練數據訓練,得到訓練后的醫學命名實體識別模型;
(3)將測試數據輸入醫學命名實體識別模型中,得到命名實體的最優標注序列;
所述的訓練后的醫學命名實體識別模型包括:
Bi-LSTM層:以測試數據為輸入,輸出隱藏層特征FH=[fh1,…,fhT],BH=[bh1,…,bhT],其中FH代表前向隱藏層特征,BH代表后向隱藏層特征;
上下文依賴層,對隱藏層特征重新計算,得到更新的前后雙向的特征表達和
全連接層,拼接和輸出預測序列Y=[y1,…,yT];
CRF層,將預測序列Y輸入條件隨機場CRF中,得到概率最大的一個實體標注序列作為最優實體標注序列;
所述的Bi-LSTM具有三個門控結構:輸入門控、遺忘門控和輸出門控;通過輸入門控和遺忘門控來控制輸入,前一步狀態的比例更新得到最新的狀態,通過輸出門控來控制隱藏層的輸入;三個門控的計算公式為:
it=σ(Wixxt+Wihht-1+Wicct-1)
ft=σ(Wfxxt+Wfhht-1+Wfcct-1)
ct=ft⊙ct-1+it⊙φ(Wcxxt+Wchht-1)
ot=σ(Woxxt+Wohht-1+Wocct)
ht=ot⊙φ(ct)
其中,it表示輸入門控,ft表示遺忘門控,ot表示輸出門控,ct表示狀態,ht表示輸出的隱藏特征,為sigmoid激活函數,為tanh激活函數;
所述的上下文依賴層對隱藏層特征重新計算的方法為:
(1)對于在文本序列第t個特征,考慮上下文n個詞的特征,前向取fhi,i∈(t-n,t]與后向取bhi,i∈[t,t+n)與
(2)通過softmax函數做歸一化,分別得到前向特征和后向特征中第t個特征的上下文權重;
(3)根據步驟(2)得到的上下文權重重新計算隱藏層特征,得到更新的前后雙向的特征表達;
在步驟(2)中,前向特征中的上下文權重的計算方法為:
其中,lsi表示上文權重,表示下文權重;
其中,lai=fhi×W,D代表隱藏層特征的維度;
在步驟(3)中,更新的前向特征表達特征中的第t個特征:
依次類推,得到
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811190380.4/1.html,轉載請聲明來源鉆瓜專利網。





