[發明專利]一種基于融合字形信息的服藥單識別結果糾錯方法有效
| 申請號: | 202110015403.3 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112613522B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 唐萬梅;梁燕;李錦;周東亮;陳峻嵩 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06V30/26 | 分類號: | G06V30/26;G06V30/19 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 融合 字形 信息 服藥 識別 結果 糾錯 方法 | ||
本發明涉及一種基于融合字形信息的服藥單識別結果糾錯方法,屬于文字識別領域,包括構建一個標準藥品詞庫,將詞庫中的每個藥品信息作為一個節點存儲在BK樹內存結構中,設置搜索距離閾值n,通過閾值搜索規則減少數據搜索規模,得到結果候選集;將文字識別后待糾錯字符串與結果候選集中的字符串進行相似度匹配,在原有的相似度匹配方案基礎上改進傳統的編輯距離公式,保持插入和刪除操作代價不變,降低替換字符代價;在進行替換字符操作時,考慮字符的五筆編碼、四角碼和筆畫三個字形相關信息,增大字符串近似匹配精度;將相似度最高的字符串作為糾錯結果進行替換。本發明通過對服藥單識別結果糾錯,提高服藥單識別準確率。
技術領域
本發明屬于文字識別技術領域,涉及一種基于融合字形信息的服藥單識別結果糾錯方法。
背景技術
隨著人民生活水平的不斷提高,慢性病患者人數在逐年遞增,患者需要長期甚至終身用藥以控制、緩解病情。對患者服藥信息的長期追蹤,能夠幫助醫護人員了解患者的實際用藥情況,便于對其進行健康評估、疾病預測。醫療服藥單作為患者服藥信息的重要依據,主要包含醫囑時間、藥品名稱、劑量和頻次信息。然而紙質服藥單不易保存,人工采集數據耗費人力,且存在數據錯誤風險,OCR技術為紙質文檔的電子化提供了便利。
隨著OCR技術的發展,印刷體識別技術已經擁有較高的準確度。但是服藥單上的藥品名多數是由不同的中文字符構成,其中包含很多醫學上才會頻繁使用的生僻字,如:“胍”、“哌”、“嗪”、“萘”、“鉍”等,或者形近字,如“櫞”和“橡”、“枸”和“佝”等,再加上服藥單圖像本身的清晰度、噪聲、折疊、傾斜、光照等多種因素的影響,極易導致OCR識別后的結果存在錯誤。為有效降低識別錯誤帶來的影響,對服藥單識別結果后處理變得尤為重要。
在文字識別后處理中,計算兩個字符串的相似度是一個重要研究方向,通過依次計算待糾錯字符串和目標集合中字符串的相似度,選擇相似度最高的目標字符串作為糾錯結果。近年來,很多學者提出了基于語義、音形碼、編輯距離、最長公共子序列等方法來計算兩個字符串的相似度,從而提高文字的識別率。但是藥品名稱主要是由一些醫學專用詞匯拼接而成,并不具備語義環境,基于語義的方法無法有效地與實際問題結合。編輯距離算法,通過兩個字符串由一個轉成另一個所需要的最少編輯操作次數來衡量它們之間的相似度,其主要應用在英文字符串的相似度計算中,考慮的編輯操作信息過于單一,導致傳統的編輯距離不符合實際應用場景要求。
發明內容
有鑒于此,本發明的目的在于提供一種基于融合字形信息的服藥單識別結果糾錯方法,解決中文藥品名稱識別結果錯誤問題。
為達到上述目的,本發明提供如下技術方案:
一種基于融合字形信息的服藥單識別結果糾錯方法,包括以下步驟:
S1:構建藥品詞庫,包括門診病歷和醫院服藥單中的常用藥品,以及能從網上獲取到的部分開源藥品數據,進行清洗去重,得到最終的藥品詞庫;
S2:將所述藥品詞庫中每個字符串信息作為一個節點存儲在BK樹內存結構中;
S3:設置搜索距離閾值n,計算待糾錯字符串與BK樹中節點的編輯距離,將滿足與待糾錯字符串編輯距離不超過n的節點添加到結果候選集中;
S4:分別計算待糾錯字符串與結果候選集中的字符串間融合了五筆編碼、四角碼和筆畫后的字形編輯距離dc。
S5:計算融合字形信息的字符串相似度Simc,公式如下:
S6:將相似度最高的字符串作為糾錯結果進行替換。
進一步,所述步驟S2包括以下步驟:
S21:隨機選擇詞庫中的一個字符串作為BK樹的根節點;
S22:每插入一個新字符串,計算該字符串與根節點的距離d;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110015403.3/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





