[發明專利]一種基于自然語言處理的遠程會診記錄文本糾錯方法有效
| 申請號: | 201910379327.7 | 申請日: | 2019-05-08 |
| 公開(公告)號: | CN110110334B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 趙杰;翟運開;石金銘;崔莉亞;陳昊天;李明原;宋曉琴;王振博 | 申請(專利權)人: | 鄭州大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G16H80/00 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 450000 河南省鄭*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 遠程 會診 記錄 文本 糾錯 方法 | ||
1.一種基于自然語言處理的遠程會診記錄文本糾錯方法,其特征在于:包括如下步驟:
步驟1:部署中心服務器和數個客戶端,在中心服務器中建立預處理模塊、數據庫、查錯模塊和糾錯模塊,所有客戶端均與中心服務器通過互聯網通信;
步驟2:通過任意客戶端輸入多個原始文本,客戶端將原始文本均發送給中心服務器,中心服務器將所有原始文本均存儲到數據庫中,并在數據庫中建立用于存儲并積累原始文本的訓練數據庫;
步驟3:將訓練數據庫中的原始文本分類為完全正確的文本和錯誤文本,對完全正確的文本和錯誤文本均進行分詞和分字處理,根據原始文本中語料的錯誤位置和錯誤類型標注訓練語料,設定標注C代表正確,標注R代表冗余,標注D代表缺失,標注O代表誤代,標注M代表缺失;
調用CRF條件隨機場,并利用訓練語料得到訓練模型;
步驟4:通過任意客戶端輸入待處理文本,客戶端將待處理文本傳輸給中心服務器,中心服務器中的預處理模塊對待處理文本進行預處理,其包括如下步驟:
步驟A1:將待處理文本進行分詞和分字處理;
步驟A2:將待處理文本中的分詞和分字標注為測試語料;
步驟5:中心服務器中的查錯模塊對待處理文本進行查錯,其步驟如下:
步驟B1:根據訓練模型和CRF條件隨機場對待處理文本中的測試語料進行查錯,得到CRF條件隨機場查錯結果;
步驟B2:遍歷待處理文本中的所有散串,對待處理文本進行n-gram散串查錯,得到n-gram散串查錯結果;
步驟B3:融合條件隨機場查錯結果和n-gram散串查錯結果,對待處理文本進行標注,得到文本查錯的最終結果;
步驟6:中心服務器將步驟5得到的文本查錯的最終結果輸入到糾錯模塊,糾錯模塊對文本查錯的最終結果進行糾錯,其步驟如下:
步驟C1:構建語言模型糾正缺失錯誤;
步驟C2:將含有冗余錯誤標記的詞語或字直接刪除;
步驟C3:利用同音詞詞典對文本中含有誤代標記的詞語進行糾正,完成文本的自動糾錯功能;
步驟C4:輸出糾錯文本;
步驟7:在客戶端建立文本校對主界面、文本查錯界面和文本糾錯界面,中心服務器將文本查錯的最終結果、糾錯文本和待處理文本均打包發送給客戶端,客戶端在文本校對主界面、文本查錯界面和文本糾錯界面分別顯示待處理文本、文本查錯的最終結果和糾錯文本。
2.如權利要求1所述的一種基于自然語言處理的遠程會診記錄文本糾錯方法,其特征在于:在執行步驟3時,利用SnowNLP庫對完全正確的文本和錯誤文本進行分詞和分字處理。
3.如權利要求1所述的一種基于自然語言處理的遠程會診記錄文本糾錯方法,其特征在于:在執行步驟C1時,語言模型選擇三元語言模型,三元語言模型表示為第i個位置上的詞wi與前面的兩個詞wi-1和wi-2有關,其公式表示為:
其中P表示條件概率;s表示當語句或符號串;n表示符號的個數。
4.如權利要求3所述的一種基于自然語言處理的遠程會診記錄文本糾錯方法,其特征在于:利用三元語言模型對文本查錯的最終結果進行缺失錯誤的糾正,需要正確標注錯誤類型和錯誤位置的語料,其步驟如下:
步驟S1:對輸入的文本查錯的最終結果進行分詞,并查找出缺失標注M;
步驟S2:將標注M的前一個和后一個詞語提取出來,并記錄在缺失文本中;
步驟S3:遍歷構建的三元語言模型,判斷缺失文本中所記錄詞語是否與詞典某句中第一和第三個詞語相同:如果不相同,則糾錯失敗,并繼續查找下一個缺失標記,重復執行步驟S1到步驟S3,直到缺失文本全部糾正;如果相同,執行步驟S5;
步驟S5:判斷是否唯一:如果唯一,所選擇句子的第二個詞語是所缺失的詞語;如果不唯一,選擇詞頻較高句子中的第二個詞語作為所缺失詞語;糾錯成功,繼續查找下一個缺失標記,重復執行步驟S1到步驟S5,直到缺失文本全部糾正。
5.如權利要求1所述的一種基于自然語言處理的遠程會診記錄文本糾錯方法,其特征在于:在執行步驟C3時,利用同音詞詞典對文本中含有誤代標記的詞語進行糾正,其步驟如下:
步驟T1:將文本分詞,遍歷分詞后文本,查找誤代錯誤標注O,標注O的前一個詞語屬于誤代錯誤,將該詞語進行拼音的標注,并記錄拼音;
步驟T2:判斷所構建的同音詞詞典中是否存在該拼音:如果不存在,說明糾錯失敗;如果存在,說明該誤代詞語存在同音詞,將這些同音詞作為誤代候選詞;
步驟T3:將誤代候選詞的所有同音詞依次代入原語句中,分別計算句子的概率并按降序排列,將排序第一的句子中的同音詞作為誤代詞語的糾正詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州大學,未經鄭州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910379327.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種互聯對象的檢索方法及系統
- 下一篇:一種基于層疊模型的命名實體識別方法





