[發(fā)明專利]一種應用于醫(yī)技檢查報告的智能糾錯方法在審
| 申請?zhí)枺?/td> | 201711426176.3 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108257650A | 公開(公告)日: | 2018-07-06 |
| 發(fā)明(設計)人: | 賈祿帥;王井俊;簡剛;唐武斌 | 申請(專利權(quán))人: | 寧波市科技園區(qū)明天醫(yī)網(wǎng)科技有限公司 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F17/27 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 毛翔威 |
| 地址: | 315040 浙江省寧波市高新區(qū)創(chuàng)苑路80*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾錯 醫(yī)技檢查 詞庫 分詞 智能 應用 遞歸神經(jīng)網(wǎng)絡 上下文語義 預處理過程 糾錯處理 糾錯過程 模型過程 模型判斷 訓練過程 語義關系 拼音 檢測 替代 | ||
本發(fā)明公開了一種應用于醫(yī)技檢查報告的智能糾錯方法,包括預處理過程→訓練過程→智能糾錯過程,通過使用遞歸神經(jīng)網(wǎng)絡得到的糾錯模型,可以在進行糾錯時,既考慮到醫(yī)技檢查報告詞庫對檢測的影響,又考慮到上下文的語義關系;同時在應用糾錯模型過程中,采取不同的策略,當分詞不在醫(yī)技檢查報告詞庫中時,由拼音和字形給出可替代當前分詞的建議值,當分詞在詞庫中時,由糾錯模型判斷是否進行糾錯處理,并根據(jù)上下文語義關系給出相應結(jié)果。
技術領域
本發(fā)明涉及一種糾錯方法,特別是一種應用于醫(yī)技檢查報告的智能糾錯方法。
背景技術
隨著醫(yī)院信息化建設的發(fā)展,檢查報告書寫的方式已逐步由單一的在紙上書寫向無紙化過渡,報告的編輯,管理也更加高效;但不同地區(qū)、醫(yī)院,報告系統(tǒng)中結(jié)構(gòu)化模板的質(zhì)量存在著較大差異,大多數(shù)報告醫(yī)生還需要手動大量輸入檢查報告內(nèi)容。因此,如何對手動輸入的報告內(nèi)容進行分析檢測,將是進一步提高報告的準確性和嚴謹性的重要一步。
傳統(tǒng)的解決方法是通過使用當前語境下的詞典對輸入信息進行分詞,查看分詞是否在詞典中出現(xiàn),如果沒有出現(xiàn),則證明存在錯誤錄入信息,并對錯誤錄入信息進行糾錯。該技術主要的缺點是:查找錯誤分詞時沒有充分考慮錄入文本的上下文語義信息;提供的預測文字只提供與錯誤分詞的讀音相同或者對應按鍵相同的詞語,沒有充分考慮上下文的信息。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決上述現(xiàn)有技術的不足而提供一種利用遞歸神經(jīng)網(wǎng)絡算法充分聯(lián)系上下文語義信息,并結(jié)合糾錯策略對獲得的醫(yī)技檢查報告進行智能糾錯的方法。
為了實現(xiàn)上述目的,本發(fā)明所設計的一種應用于醫(yī)技檢查報告的智能糾錯方法,包括以下步驟:
步驟1、預處理過程:
1.1、將整個醫(yī)技檢查報告語料庫作為訓練樣本,采用基于字符串匹配和隱馬爾可夫模型HMM的中文分詞模型CSM對訓練樣本進行分詞,并經(jīng)過去重和編號處理后,生成醫(yī)技檢查報告詞庫MERL;其中隱馬爾可夫模型HMM是一種統(tǒng)計模型,它用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。中文分詞模型CSM是指將使用自然語言描述的語句按照預定義規(guī)則切分成多個單獨的詞語。
步驟2、訓練過程:
2.1、采用中文分詞模型CSM對訓練樣本進行分詞,并依據(jù)醫(yī)技檢查報告詞庫MERL對訓練樣本進行數(shù)字化編碼,若樣本分詞不在醫(yī)技檢查報告詞庫MERL中,則編碼為0;
2.2、將編碼后的訓練樣本按3:1:1的比例構(gòu)建訓練集、驗證集和測試集;
2.3、將構(gòu)建好的訓練集、驗證集和測試集送入到遞歸神經(jīng)網(wǎng)絡RNN-雙層長短期記憶網(wǎng)絡LSTM中進行訓練,獲得糾錯模型CM;其中遞歸神經(jīng)網(wǎng)絡RNN是一種節(jié)點定向連接成環(huán)的人工神經(jīng)網(wǎng)絡,可以利用它內(nèi)部的記憶來處理任意時序的輸入序列。雙層長短期記憶網(wǎng)絡LSTM是一種層數(shù)為2層的時間遞歸神經(jīng)網(wǎng)絡。
步驟3、智能糾錯過程:
3.1、經(jīng)過訓練得到糾錯模型CM后,采用中文分詞模型CSM對待檢測的醫(yī)技檢查報告進行中文分詞,獲得n個分詞,并用thresh來表示糾錯閾值,用nIn來記錄糾錯過程中分詞連續(xù)出現(xiàn)在醫(yī)技檢查報告詞庫MERL的數(shù)目;
3.2、依次對得到的分詞進行分析糾錯,若分詞中含有標點符號,則不需要進行糾錯;
3.3、若當前第i個分詞不在醫(yī)技檢查報告詞庫MERL,則認為該分詞是錯誤的,概率值Pi=0,并根據(jù)拼音和字形給出一組可替代錯誤分詞的建議值;
3.4、若當前第i個分詞在醫(yī)技檢查報告詞庫MERL中,則將i-nIn,…,i共計nIn+1個分詞送入糾錯模型CM得到第i+1個分詞的概率值Pi+1;
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧波市科技園區(qū)明天醫(yī)網(wǎng)科技有限公司,未經(jīng)寧波市科技園區(qū)明天醫(yī)網(wǎng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711426176.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





