[發明專利]一種醫療文本處理方法、裝置、存儲介質及設備有效
| 申請號: | 201911294498.6 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111091883B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 丁牟華;崔朝輝;趙立軍;張霞 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F40/295 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 文本 處理 方法 裝置 存儲 介質 設備 | ||
1.一種醫療文本處理的方法,其特征在于,所述方法包括:
獲取待處理醫療文本;
根據實體類別從所述待處理醫療文本中提取各個實體;所述實體為所述待處理醫療文本中的關鍵詞;
按照各個所述實體在所述待處理醫療文本中的出現順序對各個所述實體進行排序,得到所述實體的排序結果;
根據所述實體的排序結果以及所述實體類別,對所述實體進行組合獲得實體組合,從而獲得所述待處理醫療文本的結構化數據;
所述根據所述實體的排序結果以及所述實體類別,對所述實體進行組合獲得實體組合,包括:
當所述實體的實體類別為目標實體類別時,將該實體與位于該實體之后的相鄰實體進行組合,直至位于該實體之后的實體為分隔符或預設實體,生成一組實體組合;該實體對應的實體類別與位于該實體之后的相鄰實體對應的實體類別不同;
所述目標實體類別指除數值型實體對應的實體類別之外的實體類別;
當該實體對應的實體類別與位于該實體之后的相鄰實體對應的實體類別相同時,所述將該實體與位于該實體之后的相鄰實體進行組合,包括:
當多個連續實體所對應的實體類別均為部位時,獲取第一目標實體,所述第一目標實體為與所述多個連續實體中偏移量最大的實體相鄰的且實體類別為癥狀的實體;
將所述第一目標實體分別與所述多個連續實體中的各個實體進行組合,獲得實體組合;
當多個連續實體所對應的實體類別均為癥狀時,獲取第二目標實體,所述第二目標實體為與所述多個連續實體中偏移量最小的實體相鄰的且實體類別為身體部位的實體;
將所述第二目標實體分別與所述多個連續實體中各個實體進行組合,獲得實體組合。
2.根據權利要求1所述的方法,其特征在于,所述根據實體類別從所述待處理醫療文本中提取各個實體,包括:
根據詞典所包括的實體類別從所述待處理醫療文本中提取第一實體;和/或,
根據正則表達式從所述待處理醫療文本中提取第二實體,所述正則表達式與實體類別相對應。
3.根據權利要求1所述的方法,其特征在于,所述根據各個所述實體在所述待處理醫療文本中的出現順序對各個所述實體進行排序,得到所述實體的排序結果,包括:
獲取各個所述實體在所述待處理醫療文本中的偏移量;
根據所述實體在所述待處理醫療文本中的偏移量對各個所述實體進行排序,得到所述實體的排序結果。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當實體的實體類別為發生時間時,確定位于該實體之后的實體所生成的實體組合,并將該實體添加至所述實體組合;
當實體的實體類別為持續時間或加重時間時,確定位于該實體之前的實體所生成的各個實體組合,直至位于該實體之前的實體為分隔符,將該實體添加至所述實體組合。
5.根據權利要求1所述的方法,其特征在于,所述方法還包括:
針對任一實體組合,將所述實體組合中實體類別為發生時間的實體或實體類別為持續時間的實體確定為第三目標實體;
將所述第三目標實體的實體類別確定為時間線,并添加至所述實體組合。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取所述實體組合對應的實體組合類別;
確定各個所述實體組合類別所對應的字段;
根據待處理醫療文本所對應的目標本體圖譜以及各個所述實體組合對應的實體組合類別、所述實體組合類別對應的字段,建立實體圖譜;所述目標本體圖譜包括各個字段,每個所述字段對應各個實體組合類別,所述實體組合類別包括各個實體類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911294498.6/1.html,轉載請聲明來源鉆瓜專利網。





