[發明專利]中文電子病歷命名實體抽取方法及系統有效
| 申請號: | 201910313195.8 | 申請日: | 2019-04-18 |
| 公開(公告)號: | CN110032739B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 江瑞;黃浩 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 曹素云;董永輝 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 電子 病歷 命名 實體 抽取 方法 系統 | ||
本發明公開了一種中文電子病歷命名實體抽取方法及系統。該方法包括:通過字符嵌入層將輸入語句中的每個字映射為一個向量;采用LSTM模型輸入字符序列,獲得隱表示向量;將每個字作為以該字為結尾的語義單位的最后一個字,進行語義分割,得到該字對應的所有網格編碼;將每個字的所有網格編碼進行線性組合,得到最后的每個字符的向量,其中,線性組合中的權重由自注意力機制給出;采用深度殘差網絡作為輸出解碼層,解碼出命名實體鏈。本發明中文電子病歷命名實體抽取方法及系統可以自動從中文電子病歷中抽取各種醫學命名實體,且提高了抽取效率,免去了病歷結構化過程中人工消耗。
技術領域
本發明屬于醫療文本數據挖掘技術領域,特別是涉及一種中文電子病歷命名實體抽取方法及系統,尤其用于一種名為多系統萎縮的罕見病的中文電子病歷文本醫學命名實體的識別和提取。
背景技術
一方面,近年來我國各級醫院逐漸采用電子病案管理系統代替傳統的手寫病歷,從而累積了越來越多的電子病歷。常規的電子病歷中,信息的主要載體是自然語言,比如,影像報告、用藥記錄、病程報告和病例檢查報告等??梢哉f,這些自然語言文本蘊含著患者診療過程中的主要臨床信息。另一方面,隨著以大數據、人工智能為代表的信息技術與醫學的深度融合,催生了諸如精準醫療、臨床決策支持、醫學數據挖掘、疾病風險評估等一系列新的概念和方法。
但是,這些新概念、新方法的實現高度依賴巨量的真實、準確、可靠的結構化的診療數據。通常醫院無法直接使用電子病歷中的信息、更無法使其服務于臨床。臨床電子病歷設計的初衷是面向記錄,而不是面向研究,也就是說,醫生會把臨床的所有的情況原原本本地記錄下來,但卻并沒有針對信息做面向研究和應用的加工處理。這樣一來,臨床電子病歷大部分都是自然語言,這種文本信息放到計算機里無法進行任何形式的計算,所以首先要做的是數據結構化。也就是說,現實中的病歷數據大都是非結構化的。正因為如此,將非結構化的醫療數據進行結構化成為一個必要而關鍵的步驟。考慮到數據量巨大,若依靠人工來進行結構化,其經濟成本無疑將十分高昂。所以,利用計算機自動的從電子病歷中提取結構化的臨床信息是一種理性的選擇。
電子病歷的命名實體識別(Named Entity Recognition,NER),是讀入電子病歷文本,識別和抽取出與醫學臨床相關的實體,結合數據源“現病史記錄”的內容及特點,將它們歸類到預定義類別。在電子病歷結構化過程中,從病例文本提取出各種醫學關心的概念類(癥狀、時間、部位、程度等等)是一個關鍵問題。一些疾病的名稱,醫院里甚至有上百種表達方式。所以,要從整段的自然語言文本里提出數據,如果沒有技術支撐,需要巨大的人力投入。中文電子病歷的命名實體識別的初衷在此。
醫學信息抽取系統是病例結構化系統的子系統,一種可以自動將癥狀、時間、修飾符、治療方式和診斷結果提取出來的系統,對于病例結構化系統的性能有重大影響。信息提取的準確性對于后續醫療數據分析流程有著基礎性的影響。因此,一個好的信息提取系統可以幫助提高病例結構化的準確性,也能更高效和準確地服務于醫學數據挖掘、臨床決策支持、臨床風險評估等。目前尚無針對罕見病電子病歷進行專門優化的醫學命名實體識別并抽取的方法和系統。
發明內容
基于上述問題,本發明目的在于提供一種中文電子病歷命名實體抽取方法,尤其是用于對罕見病電子病歷進行專門優化的醫學命名實體的識別和抽取;以提高抽取效率,免去病歷結構化過程中人工消耗。
本發明的另一目的在于提供一種中文電子病歷命名實體抽取系統。
上述目的是通過以下技術方案實現的:
根據本發明的一個方面,本發明提供的一種中文電子病歷命名實體抽取方法,包括以下步驟:
步驟一,通過字符嵌入層將輸入語句中的每個字映射為一個向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910313195.8/2.html,轉載請聲明來源鉆瓜專利網。





