[發明專利]一種基于中文電子病歷的實體識別方法在審
| 申請號: | 201810304901.8 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108628824A | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 閆鳳麒;張貝貝;陸明名 | 申請(專利權)人: | 上海熙業信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G16H10/60;G16H50/70 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 201802 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子病歷 實體識別 中文 文本 詞頻 字頻 語料庫標注 單字 人工標注 醫學詞典 章節信息 復雜度 核心詞 語料庫 準確率 構建 聚類 向量 標注 醫療 統計 | ||
本發明提供了一種基于中文電子病歷的實體識別方法,涉及醫療實體識別技術領域。針對目前國內缺少公開中文電子病歷標注語料庫的缺陷,本發明通過構建整理醫學詞典,提出了一種半自動語料庫標注方法,節省了人工標注的復雜度。其次目前基于特征的電子病歷實體識別方法大部分都是針對普通文本或者一般的電子病歷文本,沒有考慮到中文電子病歷的特有特征。本發明提取的特征除了一般文本具有的基本特征外,還提取了中文電子病歷特有的章節信息特征,通過對收集到的詞典進行單字和詞切分后統計字頻和詞頻得到核心詞特征加入擴展特征中,并且通過對詞向量進行聚類把詞與詞之間的聯系也加入了擴展特征,有效的提高了中文電子病歷的實體識別準確率。
技術領域
本發明涉及自然語言處理領域,尤其涉及電子病歷的命名實體識別。
背景技術
最早的電子病歷信息抽取通常采用詞典與規則相結合的方法。而隨著電子病歷標注語料的構建,基于機器方法的電子病歷信息抽取研究逐漸開展起來。美國國家集成生物與臨床信息學研究中心I2B2在2010年引入了英文電子病歷的信息抽取任務,該評測包含3個子任務,分別是醫療問題、檢查、治療等實體的識別、實體修飾識別以及實體關系抽取,并提供了349份人工標注的電子病歷和827份未標注電子病歷。為英文電子病歷命名實體識別及關系識別打下了堅實的基礎。
對于電子病歷命名實體研究,Dingcheng Li等人分別采用了條件隨機域(CRF)和支持向量機(SVM)兩種方法,并結合SNOMED-CT詞典進行電子病歷命名實體識別,其中CRF模型達到了較好的效果。Min Jiang等人引入一體化醫學語言系統(UMLS)及三個自然語言處理系統(MedLEE,DST,Knowledge Map)的結果作為特征,系統的評估了采用不同特征及機器學習算法的識別效果,并提出了一個集成規則與機器學習算法的實體抽取系統。Siddhartha Jonnalagadd等人則是在基本特征的基礎上,增加分布式語義特征,采用CRF模型對電子病歷中的醫療問題、檢查、治療進行識別。
中文電子病歷命名實體研究仍處于起步階段,葉楓等人基于CRF算法,對中文電子病歷中的疾病、臨床癥狀、手術操作3類命名實體進行智能識別,構建了覆蓋25個疾病大類的250份病歷。該研究是對中文電子病歷命名實體識別研究的首次嘗試,但該研究對實體類型定義不能夠覆蓋所有的醫療實體,語料規模也較小。Lei Jianbo等人共選取了包含病程記錄和出院小結在內的800份病歷文本,以此構建了命名實體標注語料,他們共定義了四種醫療實體:醫療問題、檢查、藥物、手術,對比了CRF、SVM、ME、SSVM四種算法的效果,其中SSVM模型的表現最好,病程記錄訓練出的模型的F值可以達到93.53%,而出院小結的F值則為90.01%。Xu Yan等人構建了包含336份出院小結在內的標注語料,主要針對醫療問題、檢查、治療和藥物四類實體,并提出了基于對分解的分詞及命名實體識別聯合模型。
發明內容
現有研究主要針對英文電子病歷,在中文電子病歷實體識別中,由于缺少公開中文電子病歷標注語料庫以及詞典資源,使得其研究緩慢,同時一般的基于特征的實體識別方法都是對詞進行直接分析,而沒有深入分析到詞向量,也忽略了實體間的一定相似度可以用聚類方法求得這一特點。
電子病歷實體識別是智能醫療推進的一項重要任務,將臨床信息中的醫療信息提出來有助于醫療知識圖譜的構建以及醫療自動問答的推進。目前的電子病歷實體識別主要是針對英文電子病歷的,中文研究由于缺少公開中文電子病歷標注語料庫以及詞典資源,一般基于特征的方法中沒有充分考慮到中文電子病歷的特有特點。針對這些問題,本發明在進行一定規模的中文電子病歷語料庫標注后,給出了一種結合詞向量和聚類從多方面進行特征擴展的中文電子病歷實體識別方法。
為了實現上述目的,本發明給出的技術方案為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海熙業信息科技有限公司,未經上海熙業信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810304901.8/2.html,轉載請聲明來源鉆瓜專利網。





