[發明專利]一種醫療文本處理方法、裝置、存儲介質及設備有效
| 申請號: | 201911294498.6 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111091883B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 丁牟華;崔朝輝;趙立軍;張霞 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F40/295 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 文本 處理 方法 裝置 存儲 介質 設備 | ||
本申請實施例公開了一種醫療文本處理方法、裝置、存儲介質及設備,具體地,獲取待處理醫療文本,根據實體類別從待處理醫療文本中提取各個實體。然后,按照各個實體在待處理醫療文本中的出現順序對各個實體進行排序,得到實體的排序結果。再根據實體的排序結果以及實體類別對實體進行組合獲得實體組合,該實體組合中可以包括待處理醫療文本中的多個關鍵詞,從而獲得待處理醫療文本的結構化數據。即,通過本申請實施例提供的方法,可以對待處理醫療文本中的信息進行有效抽取,并進行結構化表示,以便于后續對結構化數據進行分析。
技術領域
本申請涉及信息處理技術領域,具體涉及一種醫療文本處理方法、裝置、存儲介質及設備。
背景技術
隨著自然語言處理技術的不斷發展和應用,信息提取作為自然語言處理領域重要部分,是指從非結構化的文本數據中提取有價值的內容,并形成結構化信息,以便利用結構化信息進行業務分析。
在醫療領域,同樣會產生大量的醫療數據,而病歷數據作為其中重要組成部分,具有重要的應用價值。由于病歷數據的多樣性和不確定性等特點,導致傳統的信息提取方法無法有效地從病歷數據中提取有價值的信息并進行結構化處理,影響對病歷數據的分析。
發明內容
有鑒于此,本申請實施例提供一種醫療文本處理方法、裝置、存儲介質及設備,以實現更為有效地從病歷數據中提取信息。
為解決上述問題,本申請實施例提供的技術方案如下:
在本申請實施例提供的一種醫療文本處理方法,該方法可以包括:
獲取待處理醫療文本;
根據實體類別從所述待處理醫療文本中提取各個實體;所述實體為所述待處理醫療文本中的關鍵詞;
按照各個所述實體在所述待處理醫療文本中的出現順序對各個所述實體進行排序,得到所述實體的排序結果;
根據所述實體的排序結果以及所述實體類別,對所述實體進行組合獲得實體組合,從而獲得所述待處理醫療文本的結構化數據。
在一種可能的實現方式中,所述根據實體類別從所述待處理醫療文本中提取各個實體,包括:
根據詞典所包括的實體類別從所述待處理醫療文本中提取第一實體;和/或,
根據正則表達式從所述待處理醫療文本中提取第二實體,所述正則表達式與實體類別相對應。
在一種可能的實現方式中,所述根據各個所述實體在所述待處理醫療文本中的出現順序對各個所述實體進行排序,得到所述實體的排序結果,包括:
獲取各個所述實體在所述待處理醫療文本中的偏移量;
根據所述實體在所述待處理醫療文本中的偏移量對各個所述實體進行排序,得到所述實體的排序結果。
在一種可能的實現方式中,所述根據所述實體的排序結果以及所述實體類別,對所述實體進行組合獲得實體組合,包括:
當所述實體的實體類別為目標實體類別時,將該實體與位于該實體之后的相鄰實體進行組合,直至位于該實體之后的實體為分隔符或預設實體,生成一組實體組合;該實體對應的實體類別與位于該實體之后的相鄰實體對應的實體類別不同。
在一種可能的實現方式中,所述方法還包括:
當實體的實體類別為發生時間時,確定位于該實體之后的實體所生成的實體組合,并將該實體添加至所述實體組合;
當實體的實體類別為持續時間或加重時間時,確定位于該實體之前的實體所生成的各個實體組合,直至位于該實體之前的實體為分隔符,將該實體添加至所述實體組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911294498.6/2.html,轉載請聲明來源鉆瓜專利網。





