[發明專利]面向多數據源的疾病類實體識別方法及裝置有效
| 申請號: | 201710101821.8 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106934220B | 公開(公告)日: | 2019-07-19 |
| 發明(設計)人: | 李雪莉;黃玉麗;關毅 | 申請(專利權)人: | 黑龍江特士信息技術有限公司;哈爾濱工業大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F17/27;G06F16/28 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;湯在彥 |
| 地址: | 150000 黑龍江省哈爾濱市經開區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 多數 疾病 實體 識別 方法 裝置 | ||
1.一種面向多數據源的疾病類實體識別方法,其特征在于,包括:
獲取原始數據中的待處理語句;
將所述待處理語句進行單字切分,確定待處理語句中的每個文字;
根據預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;
根據待處理語句的實體標記序列,確定待處理語句的第一組候選實體;
根據預先設置的疾病類術語切分策略,對所述待處理語句進行術語切分,確定第二組候選實體;其中,所述預先設置的疾病類術語切分策略包括:將待處理語句中的標點符號轉換為半角,并將英文字母統一為大寫英文字母;
調用預先設置的非醫學術語表,檢查待處理語句中的原始字符串是否存在非醫學術語表中的術語,并將待處理語句中存在的非醫學術語表中的術語刪除,形成預處理后的待處理語句;
將預處理后的待處理語句采用最大匹配原則與預先設置的疾病本體庫進行匹配切分,形成本體切分結果;
根據預處理后的待處理語句以及其中的本體切分結果,確定預處理后的待處理語句中除本體切分結果之外的其他字符;
將所述其他字符與所述本體切分結果以預先設置的切分規則重新進行切分,形成第一切分結果;
將預處理后的待處理語句的原始字符串按順序檢查字符串中的符號,并在字符串中的符號滿足預設切分條件時,轉換為系統分隔符進行切分,形成基于符號切分結果;
根據所述第一切分結果和基于符號切分結果中符號的類型和位置,以預先設置的切分規則重新進行切分,形成第二組候選實體;根據第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組疾病類候選實體和第二組疾病類候選實體;
若第一組疾病類候選實體和第二組疾病類候選實體不相同,根據預先設置的判斷策略從第一組疾病類候選實體和第二組疾病類候選實體中確定疾病類實體結果;其中,所述預先設置的判斷策略包括:確定待處理語句在進行術語切分時,是否通過預先設置的切分規則進行切分;
若待處理語句在進行術語切分時,通過預先設置的切分規則進行切分,則選擇所述第二組疾病類候選實體中的候選實體作為疾病類實體結果;
若待處理語句在進行術語切分時,未通過預先設置的切分規則進行切分,則選擇所述第一組疾病類候選實體中的候選實體作為疾病類實體結果;
或者,確定來源于相同待處理語句的原始字符串的第一組疾病類候選實體和第二組疾病類候選實體中,實體個數少,且實體包含的字符數多的一組實體作為疾病類實體結果。
2.根據權利要求1所述的面向多數據源的疾病類實體識別方法,其特征在于,所述原始數據包括結構化數據、半結構化數據或非結構化數據;所述非結構化數據包括電子病歷EMR數據、電子健康檔案EHR數據;所述結構化數據包括臨床結算單數據、網絡醫療知識庫數據。
3.根據權利要求2所述的面向多數據源的疾病類實體識別方法,其特征在于,根據預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列,包括:
從預先設置的語料庫中提取待處理語句中的每個文字的CRF統計特征值;所述預先設置的語料庫中記錄有原始數據中各語句、各語句中的實體、以及各語句中的實體在各語句中的位置以及實體類別;所述CRF統計特征值包括每個文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術語表特征值;
根據每個字在各語句中的CRF統計特征值,確定一訓練模型;所述訓練模型為:
根據所述訓練模型,計算待處理語句中的每個文字的實體標記yj;
將每個文字的實體標記進行組合,形成待處理語句的實體標記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對應的文字的實體標記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數值;λi為模型參數;m表示分詞特征的個數;n表示待處理語句中的文字位置個數;Z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標記概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江特士信息技術有限公司;哈爾濱工業大學,未經黑龍江特士信息技術有限公司;哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101821.8/1.html,轉載請聲明來源鉆瓜專利網。





