[發明專利]一種基于中文電子病歷的實體識別方法在審
| 申請號: | 201810304901.8 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108628824A | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 閆鳳麒;張貝貝;陸明名 | 申請(專利權)人: | 上海熙業信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G16H10/60;G16H50/70 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 201802 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子病歷 實體識別 中文 文本 詞頻 字頻 語料庫標注 單字 人工標注 醫學詞典 章節信息 復雜度 核心詞 語料庫 準確率 構建 聚類 向量 標注 醫療 統計 | ||
1.一種基于中文電子病歷的實體識別方法,其特征在于,所述方法包括:
步驟1、利用收集到的醫學詞典使用半自動標注方法對中文電子病歷進行標注;
步驟2、利用分詞器Jieba中文分詞和中科院的NLPIR進行分詞,其詞、詞性和上下文信息構成實體識別的基本特征;
步驟3、將無格式電子病歷文本文件轉化為xml格式文件,提取章節名信息;
步驟4、統計分析整理疾病、癥狀、檢查和治療的核心詞詞庫,提取每個詞的核心詞特征;
步驟5、用開源工具Word2Vector計算每個詞的詞向量,根據詞向量用k-means算法進行聚類,獲取詞聚類特征,與步驟3獲得的章節信息特征、步驟4獲得的核心詞特征構成實體識別的擴展特征;
步驟6、將上述步驟2獲得的基本特征和步驟5獲得的擴展特征構成的特征向量輸入已訓練好的條件隨機場分類器,抽取測試的電子病歷中的實體。
2.根據權利要求1所述的方法,其特征在于,步驟1中利用半自動標注方法對中文電子病歷進行標注,方法步驟具體包括:
步驟1.1、收集醫學詞典,將其整理為疾病詞庫、癥狀詞庫、檢查詞庫、治療詞庫;
步驟1.2、使用高精度的反向自動匹配算法對中文電子病歷進行自動標注;
步驟1.3、醫院若干名(實施例兩名)全科醫生進行人工核對、查漏補缺;
以上經歷步驟1.2、步驟1.3兩輪標注后得到標注好的中文電子病歷語料庫。
3.根據權利要求1所述的方法,其特征在于,步驟2中對中文電子病歷文本進行分詞工作,方法步驟具體包括:
步驟2.1、將以上步驟1.1收集的醫學詞典加入分詞器的用戶字典;
步驟2.2、使用分詞器對中文電子病歷進行分詞,分詞后的詞和詞性以及上下文信息構成了實體識別的基本特征;
4.根據權利要求1所述的方法,其特征在于,提取中文電子病歷的擴展特征,方法步驟具體包括:
將中文電子病歷無結構文本轉化為結構化的xml文本,提取各個章節的名字,作為章節特征;
對標注的中文電子病例的實體以及收集到的醫學詞典進行統計分析得到各個實體核心詞詞典,根據此詞典提取分詞之后每個詞的核心詞特征;
以中文電子病歷數據為訓練集,利用Word2Vector計算詞向量,用k-means進行聚類,將每個詞的聚類結果計為詞聚類特征;
整合以上章節特征、核心詞特征以及詞聚類特征為實體識別的擴展特征。
5.根據權利要求1所述的方法,其特征在于,步驟6利用條件隨機場分類器進行訓練和預測,根據以上結合基本特征和擴展特征為用于實體識別的特征集合,選取一部分電子病歷用于訓練條件隨機場模型,剩下的電子病歷用于測試。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海熙業信息科技有限公司,未經上海熙業信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810304901.8/1.html,轉載請聲明來源鉆瓜專利網。





