[發明專利]中文電子病歷命名實體抽取方法及系統有效
| 申請號: | 201910313195.8 | 申請日: | 2019-04-18 |
| 公開(公告)號: | CN110032739B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 江瑞;黃浩 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 曹素云;董永輝 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 電子 病歷 命名 實體 抽取 方法 系統 | ||
1.一種中文電子病歷命名實體抽取方法,其特征在于,該方法包括以下步驟:
步驟一,通過字符嵌入層將輸入語句中的每個字映射為一個向量;
步驟二,采用LSTM模型輸入字符序列,獲得隱表示向量;將每個字作為以該字為結尾的語義單位的最后一個字,進行語義分割,得到該字對應的所有網格編碼;將每個字的所有網格編碼進行線性組合,得到最后的每個字符的向量,其中,線性組合中的權重由自注意力機制給出;
步驟三,采用殘差遞歸網絡即ResLSTM作為輸出解碼層,解碼出命名實體鏈,其中,注意力機制模型的輸出作為殘差遞歸網絡的輸入;
所述ResLSTM中包含兩種映射,一種是恒等映射x,表示其本身;另一種是殘差映射F(x),所述殘差遞歸網絡最后輸出為H(x)=F(x)+x,其中,所述F(x)為長短時記憶網絡;
所述ResLSTM利用語境的高層語義特征進行校正分類,包括LSTM模型和softmax層,通過LSTM層提取抽象的局部語義特征,對分類概率進行校正;通過softmax層將高層的語義特征變換為預定義類別的概率;其中,
LSTM:(0,0,Ai-R,i+R)→Oi 公式(12)
公式(12)中,0表示初始狀態置零;Ai-R,i+R表示第i-R到i+R個字符之間的字符語義編碼;Oi表示提取的中心字符i的潛在語義特征;
softmax層:Prob=Softmax(O+A) 公式(13)
公式(13)中,Prob即為所得的實體識別結果,O表示Oi所連接成的矩陣,O=[O1,O2,…,On];A表示Ai所連接成的矩陣,A=[A1,A2,…,An];
公式(14)表示對于Self-Lattice層的輸出做的Padding處理,以其作為殘差層的輸入,其中,將殘差層的輸入序列以補0的方式前后各延長R個單位。
2.根據權利要求1所述的中文電子病歷命名實體抽取方法,其特征在于,步驟二中,所述LSTM模型為:
長-短時記憶網絡∶
其中,ct和ht分別表示第t個時間步的內在狀態和輸出狀態;xt表示第t個時間步輸入到模型的字向量;模型輸入的字符序列為C=(c1,c2,...,cn)。
3.根據權利要求2所述的中文電子病歷命名實體抽取方法,其特征在于,步驟二中,計算方法如下:
網格:
其中:xb,e:=(xb,xb+1,…,xe)
其中,wb,e表示字符序列中第b個到第e個字符構成的連續字符串所形成的網格,b∈{1,2,…,n},e∈{1,2,…,n};Ab-1表示序列中第b-1個位置上字符在經過自注意力層后的輸出值。
4.根據權利要求3所述的中文電子病歷命名實體抽取方法,其特征在于,步驟二中,線性組合中的權重由自注意力機制給出的注意力值給出,在模型訓練中,通過反向傳播不斷調整模型參數,得到合理權重分配;其中,
注意力機制模型由下式表示:
其中,Ae-w,e-1、xe-w+1,e分別為注意力機制模型的狀態輸入量和字符向量輸入,Ae為注意力機制模型的輸出,表示序列中第e個位置上字符在經過自注意力層后的輸出值;
然后,得到每個輸入句子的編碼作為深度殘差網絡模塊層的輸入;其中,A=(A1,A2,…,An),n為輸入句子的長度,A1,A2,…,An表示第1,2,…n個字的注意力機制模型的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910313195.8/1.html,轉載請聲明來源鉆瓜專利網。





