[發明專利]數據處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010690317.8 | 申請日: | 2020-07-17 |
| 公開(公告)號: | CN111950262A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 高靜;徐冰;張輝 | 申請(專利權)人: | 武漢聯影醫療科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06N3/04;G06N3/08 |
| 代理公司: | 北京華進京聯知識產權代理有限公司 11606 | 代理人: | 喬改利 |
| 地址: | 430206 湖北省武漢*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種數據處理方法、裝置、計算機設備和存儲介質。所述方法通過對待處理文本進行錯誤檢測,得到錯誤文本的類型和位置,并根據錯誤文本類型和糾錯策略之間的對應關系,確定與錯誤文本的類型對應的目標糾錯策略,進一步的根據目標糾錯策略和錯誤文本的位置,對錯誤文本進行糾錯處理。在上述糾錯的數據處理方法中,由于每種類型的錯誤文本對應各自的目標糾錯策略,實現了針對每種錯誤文本類型的糾錯操作,相比于傳統的無論任何類型的錯誤文本均采用大數據庫獲取用于糾錯的文本導致的數據處理量大和糾錯精度差的問題,本申請所述的糾錯方法極大的提高了糾錯的準確性,以及提高了數據處理速度。
技術領域
本申請涉及醫學數據檢測技術領域,特別是涉及一種數據處理方法、裝置、計算機設備和存儲介質。
背景技術
隨著醫療信息系統在醫療行業的普及應用,醫療機構大部分都采用醫療信息系統進行醫學數據的存儲與編寫,例如,檢測報告或診斷報告,而醫學數據中醫學文本數據占有很大的比例,如何對錯誤的醫學文本數據進行校核是非常重要的環節。
目前,對錯誤的醫學文本數據進行校核的方式包括很多種,主要包括:采用具有檢測錯誤文本功能的檢測模型檢測出錯誤的文本,然后人工修改錯誤的文本,得到糾正后的醫學文本數據。
然而,上述校核方法存在校核不準確的問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠有效提高糾錯準確性的數據處理方法、裝置、計算機設備和存儲介質。
一種數據處理方法,所述方法包括:
對待處理文本進行錯誤檢測,得到錯誤文本的類型和位置;
根據錯誤文本類型和糾錯策略之間的對應關系,確定與所述錯誤文本的類型對應的目標糾錯策略;
根據所述目標糾錯策略和所述錯誤文本的位置,對所述錯誤文本進行糾錯處理。
在其中一個實施例中,所述錯誤文本的類型包括錯字類型、缺失類型、無序類型中的至少一種,則所述根據所述目標糾錯策略和所述錯誤文本的位置,對所述錯誤文本進行糾錯處理,包括:
根據所述目標糾錯策略和所述錯誤文本的位置,確定與所述錯誤文本對應的至少一個候選文本;
根據所述至少一個候選文本,對所述錯誤文本進行糾錯處理。
在其中一個實施例中,若所述錯誤文本的類型包括錯字類型,則所述根據所述目標糾錯策略和所述錯誤文本的位置,確定與所述錯誤文本對應的至少一個候選文本,包括:
根據所述錯字類型的文本的位置在所述待處理文本中提取出所述錯字類型的文本;
從預設的第一數據庫中選取出與所述錯字類型的文本同音,和/或,與所述錯字類型的文本之間的相似度小于預設相似度閾值的文本作為所述候選文本。
在其中一個實施例中,若所述錯誤文本的類型包括缺失類型,則所述根據所述目標糾錯策略和所述錯誤文本的位置,確定與所述錯誤文本對應的至少一個候選文本,包括:
根據所述缺失類型的文本的位置在所述待處理文本中提取出與所述缺失類型的文本相鄰的文本;
從預設的第二數據庫中選取出與所述相鄰的文本匹配的文本作為所述候選文本。
在其中一個實施例中,若所述錯誤文本的類型包括無序類型,則所述根據所述目標糾錯策略和所述錯誤文本的位置,確定與所述錯誤文本對應的至少一個候選文本,包括:
根據所述無序類型的文本的位置在所述待處理文本中提取出所述無序類型的文本;
從預設的第三數據庫中選取出與所述無序類型的文本包含相同字的文本作為所述候選文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢聯影醫療科技有限公司,未經武漢聯影醫療科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010690317.8/2.html,轉載請聲明來源鉆瓜專利網。





