[發明專利]一種基于自然語言處理的遠程會診記錄文本糾錯方法有效
| 申請號: | 201910379327.7 | 申請日: | 2019-05-08 |
| 公開(公告)號: | CN110110334B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 趙杰;翟運開;石金銘;崔莉亞;陳昊天;李明原;宋曉琴;王振博 | 申請(專利權)人: | 鄭州大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G16H80/00 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 450000 河南省鄭*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 遠程 會診 記錄 文本 糾錯 方法 | ||
本發明公開了一種基于自然語言處理的遠程會診記錄文本糾錯方法,屬于大數據技術領域,包括部署中心服務器和數個客戶端,在中心服務器中建立預處理模塊、數據庫、查錯模塊和糾錯模塊,解決了文本自動查錯自動糾錯的技術問題,本發明利用CRF和n?gram散串進行查錯并根據具體出錯原因進行糾錯,在糾錯的能力上達到了很高的水平,而且準確度上比現有技術有所提高,本發明能夠給遠程診斷科的工作人員減輕工作的壓力,提高工作的效率。
技術領域
本發明屬于大數據技術領域,尤其涉及一種基于自然語言處理的遠程會診記錄文本糾錯方法。
背景技術
隨著計算機技術和網絡技術的發展,遠程醫療會診已經成為現代醫療體系統的一個重要的組成部分。會診結果單一般有遠程科工作人員錄入,在錄入過程中會出現多字、缺字、拼寫錯誤,因此需要有專門的人力或系統對這些文本進行檢查和校對。目前對遠程醫療會診過程中的記錄的會診意見單的校對工作仍舊以人工為主,不僅費時而且費力,所以對遠程醫療會診過程成中形成的文本信息進行自動校對在遠程醫學領域具有重要的意義。
發明內容
本發明的目的是提供一種基于自然語言處理的遠程會診記錄文本糾錯方法,解決了文本自動查錯自動糾錯的技術問題。
為實現上述目的,本發明采用如下技術方案:
一種基于自然語言處理的遠程會診記錄文本糾錯方法,包括如下步驟:
步驟1:部署中心服務器和數個客戶端,在中心服務器中建立預處理模塊、數據庫、查錯模塊和糾錯模塊,所有客戶端均與中心服務器通過互聯網通信;
步驟2:通過任意客戶端輸入多個原始文本,客戶端將原始文本均發送給中心服務器,中心服務器將所有原始文本均存儲到數據庫中,并在數據庫中建立用于存儲并積累原始文本的訓練數據庫;
步驟3:將訓練數據庫中的原始文本分類為完全正確的文本和錯誤文本,對完全正確的文本和錯誤文本均進行分詞和分字處理,根據原始文本中語料的錯誤位置和錯誤類型標注訓練語料,設定標注C代表正確,標注R代表冗余,標注D代表缺失,標注O代表誤代,標注M代表缺失;
調用CRF條件隨機場,并利用訓練語料得到訓練模型;
步驟4:通過任意客戶端輸入待處理文本,客戶端將待處理文本傳輸給中心服務器,中心服務器中的預處理模塊對待處理文本進行預處理,其包括如下步驟:
步驟A1:將待處理文本進行分詞和分字處理;
步驟A2:將待處理文本中的分詞和分字標注為測試語料;
步驟5:中心服務器中的查錯模塊對待處理文本進行查錯,其步驟如下:
步驟B1:根據訓練模型和CRF條件隨機場對待處理文本中的測試語料進行查錯,得到CRF條件隨機場查錯結果;
步驟B2:遍歷待處理文本中的所有散串,對待處理文本進行n-gram散串查錯,得到n-gram散串查錯結果;
步驟B3:融合條件隨機場查錯結果和n-gram散串查錯結果,對對待處理文本進行標注,得到文本查錯的最終結果;
步驟6:中心服務器將步驟5得到的文本查錯的最終結果輸入到糾錯模塊,糾錯模塊對文本查錯的最終結果進行糾錯,其步驟如下:
步驟C1:構建語言模型糾正缺失錯誤;
步驟C2:將含有冗余錯誤標記的詞語或字直接刪除;
步驟C3:利用同音詞詞典對文本中含有誤代標記的詞語進行糾正,完成文本的自動糾錯功能;
步驟C4:輸出糾錯文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州大學,未經鄭州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910379327.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種互聯對象的檢索方法及系統
- 下一篇:一種基于層疊模型的命名實體識別方法





