[發明專利]電子病歷信息提取方法、裝置和設備在審
| 申請號: | 201811084818.0 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109166608A | 公開(公告)日: | 2019-01-08 |
| 發明(設計)人: | 樊芳利 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F17/27 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 郭新娟 |
| 地址: | 450000 河南省鄭州市鄭州高新*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 命名實體 電子病歷信息 上下文特征 電子病歷 標注信息 詞性 標注 數據處理技術 詞性標注 特征模板 申請 參考 記錄 自由 | ||
1.一種電子病歷信息提取方法,其特征在于,應用于加載有訓練完成的CRF模型的設備,所述訓練完成的CRF模型為預先采用電子病歷訓練語料依次對不同參數下的CRF模型進行訓練,并采用電子病歷測試語料對訓練后的CRF模型進行測試,直至測試結果滿足預設測試指標時得到的模型;所述方法包括:
對待處理電子病歷進行分詞和詞性標注處理,得到各分詞的詞性;
根據各分詞的詞性,采用特征模板分別對各分詞進行上下文特征提取,得到各分詞的上下文特征,其中,一個分詞的上下文特征與該一個分詞的詞性,該一個分詞之前和/或之后的關聯分詞的詞性相關聯;
根據各分詞的上下文特征,采用BIEO標注方式分別對各分詞進行命名實體標注,得到各分詞的命名實體標注信息;
根據各分詞的命名實體標注信息,從所述待處理電子病歷中提取出命名實體,其中,所述命名實體的類別至少包括以下任意一種或組合:疾病類、疾病診斷分類、癥狀類、檢查類和治療類。
2.根據權利要求1所述的方法,其特征在于,所述采用電子病歷訓練語料依次對不同參數下的CRF模型進行訓練,并采用電子病歷測試語料對訓練后的CRF模型進行測試,直至測試結果滿足預設測試指標的步驟包括:
對電子病歷訓練語料進行分詞和詞性標注,并根據預設的實體標注規范,標注電子病歷訓練語料,所述實體標注規范定義有命名實體的類別和命名實體標注方式;
選擇特征模板,并設置CRF模型的參數c和f的初始值;
采用標注后的電子病歷訓練語料對CRF模型進行訓練,得到訓練后的CRF模型,并采用電子病歷測試語料對訓練后的CRF模型進行測試,得到測試結果;
若測試結果不滿足預設測試指標,則調整參數c和/或f值,再次執行上述訓練和測試過程;
若測試結果滿足預設測試指標,則將此次訓練后得到的CRF模型作為訓練完成的CRF模型。
3.根據權利要求2所述的方法,其特征在于,參數c的取值范圍在1.3至1.7之間,參數f的取值范圍在2至4之間。
4.根據權利要求2或3所述的方法,其特征在于,所述預設測試指標包括以下指標中的任意一個或組合:準確率大于等于第一設定閾值,召回率大于等于第二設定閾值和F值大于等于第三閾值。
5.根據權利要求1所述的方法,其特征在于,所述待處理電子病歷為半結構化文本數據和/或非結構化文本數據的電子病歷;
所述特征模板為Unigram一元模板。
6.一種電子病歷信息提取裝置,其特征在于,應用于加載有訓練完成的CRF模型的設備,所述訓練完成的CRF模型為預先采用電子病歷訓練語料依次對不同參數下的CRF模型進行訓練,并采用電子病歷測試語料對訓練后的CRF模型進行測試,直至測試結果滿足預設測試指標時得到的模型;所述裝置包括:
詞性標注模塊,用于對待處理電子病歷進行分詞和詞性標注處理,得到各分詞的詞性;
特征提取模塊,用于根據各分詞的詞性,采用特征模板分別對各分詞進行上下文特征提取,得到各分詞的上下文特征,其中,一個分詞的上下文特征與該一個分詞的詞性,該一個分詞之前和/或之后的關聯分詞的詞性相關聯;
實體標注模塊,用于根據各分詞的上下文特征,采用BIEO標注方式分別對各分詞進行命名實體標注,得到各分詞的命名實體標注信息;
命名實體提取模塊,用于根據各分詞的命名實體標注信息,從所述待處理電子病歷中提取出命名實體,其中,所述命名實體的類別至少包括以下任意一種或組合:疾病類、疾病診斷分類、癥狀類、檢查類和治療類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811084818.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動獲取處理腎病數據的系統
- 下一篇:基于物聯網的護理數據共享方法





