[發明專利]一種基于Lattice LSTM模型的中文電子病歷的實體識別方法在審
| 申請號: | 202011011399.5 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112151183A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 費若嵐;高俊波 | 申請(專利權)人: | 上海海事大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F40/211;G06F40/242;G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 上海元好知識產權代理有限公司 31323 | 代理人: | 張妍;賈慧琴 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lattice lstm 模型 中文 電子 病歷 實體 識別 方法 | ||
本發明公開了一種基于Lattice LSTM模型的中文電子病歷的實體識別方法,包括以下步驟:步驟1:對電子病歷數據進行特征向量訓練,獲得電子病歷數據的特征向量;步驟2:基于雙向Lattice LSTM編碼模型,對所述特征向量進行雙向特征向量編碼,獲得電子病歷數據的輸出狀態序列;步驟3:基于CRF模型的轉移特征性,對所述輸出狀態序列進行標注概率排序,獲得實體識別的結果,完成實體識別。此發明解決了傳統中文電子病歷命名實體識別存在的不足,通過Lattice LSTM模型利用了顯性的詞信息,使用BERT預訓練語言模型融合了字的上下文相關表示,表征字的多義性,引入醫學領域的外部詞典資源,不僅提升了模型的識別效果,對未登錄詞也有一定的發現能力。
技術領域
本發明涉及命名實體識別技術領域,具體涉及一種基于Lattice LSTM模型的中文電子病歷的實體識別方法。
背景技術
隨著醫療信息的快速發展,電子醫療記錄也呈現爆發式增長。大規模的電子病歷記錄了患者的整個醫療過程,包含患者大量的診療信息,是臨床醫學研究的重要數據來源。電子病歷命名實體識別是利用計算機自動從非結構化的臨床醫學文本中識別并抽取與醫學相關的命名實體對象,如身體部位、疾病、癥狀等,這些命名實體為后續醫學系統構建和相關研究鑒定了工作基礎。
但是,對于中文電子病歷的命名實體識別,由于臨床電子病歷中存在較多的未登錄詞,給中文分詞造成了很大的誤差,而分詞錯誤很大程度上影響了命名實體的識別效果。同時,由于醫生的個人書寫習慣,電子病歷文本沒有統一規范的書寫格式,對于各種癥狀、藥物等的縮寫形式增加了電子病歷命名實體的識別難度。
目前中文電子病歷命名實體識別流行的方法主要分為:基于機器學習的方法和基于深度學習的方法。基于機器學習的方法主要包括隱馬爾可夫模型(HMM)、最大熵(ME)、條件隨機場(CRF),該方法將命名實體識別任務看成是一個序列標注任務,給輸入句子中的每一個詞語標注相應的標簽,根據標簽確定實體的邊界位置和類型。缺點是對特征選取的質量要求較高,無法解決文本中的長依賴問題,而且無法識別未登錄詞。
因此,研究學者將深度學習應用到命名實體識別任務中,在英文領域效果最好的命名實體識別(NER)是BiLSTM-CRF模型,由于中英文語言特征的差異,中文文本沒有類似英文文本中空格之類的標識符,中文實體識別首先要對文本進行分詞,而中文電子病歷中存在非常多的專業醫學術語,會產生大量的分詞錯誤從而導致在NER上的誤差累加。而單純的基于字符向量的BiLSTM-CRF模型會導致拆開很多并不該拆開的詞語,從而丟失詞語本來的內在信息。
基于以上存在問題,本發明考慮使用BiLSTM-CRF改進后的模型,即基于字向量的Lattice LSTM網格模型作為該發明的神經網絡基模型。同時在中文電子病歷的不同部分,醫療實體的類別屬性有所差異,進行命名實體標注時存在分類的模糊問題,無法判斷某些命名實體之間的界限。常見的有表示癥狀的實體經常會出現在疾病實體名中。面對這樣的問題,本發明考慮在基模型的基礎上結合醫學領域的外部詞典對多義詞的多種意義進行建模,以減輕多義詞的歧義,從而提高實體識別的效果。
發明內容
本發明的目的是提供一種基于Lattice LSTM模型的中文電子病歷的實體識別方法。此方法旨在解決傳統中文電子病歷命名實體識別存在的不足,通過Lattice LSTM模型利用了顯性的詞信息,使用BERT預訓練語言模型融合了字的上下文相關表示,表征字的多義性,引入醫學領域的外部詞典資源,不僅提升模型的識別效果,對未登錄詞也有一定的發現能力。
為達到上述目的,本發明提供了一種基于Lattice LSTM模型的中文電子病歷的實體識別方法,包括以下步驟:
步驟1:對電子病歷數據進行特征向量訓練,獲得電子病歷數據的特征向量;
步驟2:基于雙向Lattice LSTM編碼模型,對電子病歷數據的特征向量進行雙向特征向量編碼,獲得電子病歷數據的輸出狀態序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海海事大學,未經上海海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011011399.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種預制構件的施工管理方法及裝置
- 下一篇:一種太陽能電池片制造用擴散爐爐管





