[發(fā)明專利]一種基于Lattice LSTM模型的中文電子病歷的實體識別方法在審
| 申請?zhí)枺?/td> | 202011011399.5 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112151183A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設計)人: | 費若嵐;高俊波 | 申請(專利權)人: | 上海海事大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F40/211;G06F40/242;G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 上海元好知識產(chǎn)權代理有限公司 31323 | 代理人: | 張妍;賈慧琴 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lattice lstm 模型 中文 電子 病歷 實體 識別 方法 | ||
1.一種基于Lattice LSTM模型的中文電子病歷的實體識別方法,其特征在于,包括以下步驟:
步驟1:對電子病歷數(shù)據(jù)進行特征向量訓練,獲得電子病歷數(shù)據(jù)的特征向量;
步驟2:基于雙向Lattice LSTM編碼模型,對所述特征向量進行雙向特征向量編碼,獲得電子病歷數(shù)據(jù)的輸出狀態(tài)序列;
步驟3:基于CRF模型的轉移特征性,對所述輸出狀態(tài)序列進行標注概率排序,獲得實體識別的結果,完成實體識別。
2.如權利要求1所述的基于Lattice LSTM模型的中文電子病歷的實體識別方法,其特征在于,所述特征向量訓練包括以下步驟:
步驟1.1:構建包含普通文本和醫(yī)學專業(yè)詞匯的詞典組合;
步驟1.2:對所述電子病歷數(shù)據(jù)進行預處理,獲得預處理后的電子病歷數(shù)據(jù);
步驟1.3:基于BERT預訓練語言模型,對所述預處理后的電子病歷數(shù)據(jù)進行字向量訓練,獲得電子病歷數(shù)據(jù)的字特征向量;
步驟1.4:根據(jù)所述詞典組合與所述字詞序列,進行詞向量訓練,獲得所述電子病歷數(shù)據(jù)的詞特征向量;
步驟1.5:將所述字特征向量與所述詞特征向量進行特征融合,獲得所述電子病歷數(shù)據(jù)的特征向量。
3.如權利要求2所述的基于Lattice LSTM模型的中文電子病歷的實體識別方法,其特征在于,所述構建詞典組合包括以下步驟:
步驟1.1.1:分別獲取中文維基百科語料和醫(yī)學分詞詞典;
步驟1.1.2:基于Word2Vec預訓練語言模型,對中文維基百科語料進行jieba分詞訓練,獲得維基百科詞向量;
步驟1.1.3:對所述醫(yī)學分詞詞典進行改善分詞訓練,獲得醫(yī)學分詞詞向量;
步驟1.1.4:將所述維基百科詞向量與所述醫(yī)學分詞詞向量進行詞典組合,獲得所述詞典組合。
4.如權利要求2所述的基于Lattice LSTM模型的中文電子病歷的實體識別方法,其特征在于,所述預處理包括以下步驟:
步驟1.2.1:對所述電子病歷數(shù)據(jù)進行去隱私化處理,獲得去除病人隱私信息的去隱私病例數(shù)據(jù);
步驟1.2.2:對所述去隱私病例數(shù)據(jù)進行殘句處理,獲得處理后的電子病例數(shù)據(jù);
步驟1.2.3:基于正則匹配方法,對所述處理后的電子病歷數(shù)據(jù)進行過濾清洗,獲得過濾后的電子病歷數(shù)據(jù);
步驟1.2.4:對所述過濾后的電子病歷數(shù)據(jù)進行數(shù)據(jù)標注,獲得預處理后的電子病歷數(shù)據(jù)。
5.如權利要求4所述的基于Lattice LSTM模型的中文電子病歷的實體識別方法,其特征在于,所述殘句處理包括補齊隱私病例數(shù)據(jù)中的缺失語句、刪除隱私病例數(shù)據(jù)中的錯誤語句、以及對隱私病例數(shù)據(jù)中過長的語句進行分句。
6.如權利要求2所述的基于Lattice LSTM模型的中文電子病歷的實體識別方法,其特征在于,所述字向量訓練包括以下步驟:
步驟1.3.1:讀取將所述預處理后的電子病歷數(shù)據(jù)中的字符序列;
步驟1.3.2:所述BERT預訓練語言模型將所述字符序列一一進行字符映射,獲得所述BERT預訓練語言模型的詞輸入向量;
步驟1.3.3:對所述詞輸入向量進行特征訓練,輸出所述字特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海海事大學,未經(jīng)上海海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011011399.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種預制構件的施工管理方法及裝置
- 下一篇:一種太陽能電池片制造用擴散爐爐管
- 用于高階長短期記憶網(wǎng)絡的系統(tǒng)和方法
- 基于深度學習LSTM的空調(diào)故障診斷方法
- 基于注意力機制的時間序列預測方法、裝置及存儲介質(zhì)
- 一種基于PCA-LSTM網(wǎng)絡的廢水處理智能監(jiān)控方法
- 一種基于FAF-LSTM深度神經(jīng)網(wǎng)絡的居民負荷預測方法及系統(tǒng)
- 用于預測血糖水平的循環(huán)神經(jīng)網(wǎng)絡裝置和系統(tǒng)
- 基于情景LSTM結構網(wǎng)絡的微博情感分析方法
- 語音信號處理方法、裝置、電子設備和存儲介質(zhì)
- 基于約束并行LSTM分位數(shù)回歸的電力負荷概率預測方法
- 基于深度網(wǎng)絡AS-LSTM的命名實體識別系統(tǒng)及識別方法





