[發(fā)明專利]一種基于融合字形信息的服藥單識(shí)別結(jié)果糾錯(cuò)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110015403.3 | 申請(qǐng)日: | 2021-01-04 |
| 公開(公告)號(hào): | CN112613522B | 公開(公告)日: | 2023-03-14 |
| 發(fā)明(設(shè)計(jì))人: | 唐萬梅;梁燕;李錦;周東亮;陳峻嵩 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06V30/26 | 分類號(hào): | G06V30/26;G06V30/19 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 融合 字形 信息 服藥 識(shí)別 結(jié)果 糾錯(cuò) 方法 | ||
1.一種基于融合字形信息的服藥單識(shí)別結(jié)果糾錯(cuò)方法,其特征在于:包括以下步驟:
S1:構(gòu)建藥品詞庫,包括門診病歷和醫(yī)院服藥單中的常用藥品,以及能從網(wǎng)上獲取到的部分開源藥品數(shù)據(jù),進(jìn)行清洗去重,得到最終的藥品詞庫;
S2:將所述藥品詞庫中每個(gè)字符串信息作為一個(gè)節(jié)點(diǎn)存儲(chǔ)在BK樹內(nèi)存結(jié)構(gòu)中;所述步驟S2包括以下步驟:
S21:隨機(jī)選擇詞庫中的一個(gè)字符串作為BK樹的根節(jié)點(diǎn);
S22:每插入一個(gè)新字符串,計(jì)算該字符串與根節(jié)點(diǎn)的距離d;
S23:如果距離值d是第一次出現(xiàn),建立一個(gè)新的子節(jié)點(diǎn),否則沿著編號(hào)與d相同的邊遞歸下去;
S3:設(shè)置搜索距離閾值n,計(jì)算待糾錯(cuò)字符串與BK樹中節(jié)點(diǎn)的編輯距離,將滿足與待糾錯(cuò)字符串編輯距離不超過n的節(jié)點(diǎn)添加到結(jié)果候選集中;所述步驟S3包括以下步驟:
S31:設(shè)置搜索距離閾值n;
S32:計(jì)算待糾錯(cuò)字符串與根節(jié)點(diǎn)之間的編輯距離d,然后搜索邊的編號(hào)在范圍[d-n,d+n]的子節(jié)點(diǎn)node,不在此范圍的節(jié)點(diǎn)代表其整個(gè)分支都不滿足查找條件,可剪枝;
S33:比較待糾錯(cuò)字符串與node節(jié)點(diǎn)的編輯距離,如果小于n,代表找到的node節(jié)點(diǎn)符合查找要求,返回此節(jié)點(diǎn),并將節(jié)點(diǎn)存儲(chǔ)的字符串添加到結(jié)果候選集中;
S34:將當(dāng)前node節(jié)點(diǎn)當(dāng)作根節(jié)點(diǎn),返回步驟S32,繼續(xù)查找其他子節(jié)點(diǎn);遞歸以致遍歷BK樹,找到所有滿足條件的字符串,存儲(chǔ)在結(jié)構(gòu)候選集中;
S4:分別計(jì)算待糾錯(cuò)字符串與結(jié)果候選集中的字符串間融合了五筆編碼、四角碼和筆畫后的字形編輯距離dc;所述步驟S4包括以下步驟:
S41:融合五筆編碼的編輯距離替換代價(jià)公式為
Wwb=dwb/4
其中,dwb表示兩個(gè)字符五筆編碼的編輯距離,除以4是進(jìn)行歸一化操作,取值在[0,1]之間,即兩個(gè)漢字完全相同是為1,不同則為0;一個(gè)漢字最多用4個(gè)字母表示其五筆編碼,當(dāng)兩個(gè)漢字相同時(shí),五筆編碼距離為0;當(dāng)兩個(gè)漢字不同時(shí),五筆編碼距離最大為4;
S42:融合四角碼的編輯距離替換代價(jià)公式為
Wsj=dsj/5
其中,dsj為兩個(gè)字符的四角碼距離,Wsj是歸一化之后的結(jié)果,取值在[0,1]之間;一個(gè)漢字最多用5個(gè)數(shù)字表示其四角碼,四角碼的編碼規(guī)則是將漢字的基本筆畫分為10種,分別用0~9十個(gè)數(shù)字表示,按左上角、右上角、左下角、右下角的順序取漢字的四角的筆畫代碼作為漢字的編碼;即當(dāng)兩個(gè)漢字相同時(shí),四角碼距離為0;不同則距離最大為5;
S43:融合筆畫的編輯距離替換公式為
Wstro=|stroi-stroj|/max(stroi,stroj)
上式中,stroi是字符ai的筆畫數(shù),stroj是字符bj的筆畫數(shù),|stroi-stroj|是兩個(gè)字符筆畫數(shù)差值的絕對(duì)值;通過筆畫數(shù)差值除以兩個(gè)字符串筆畫數(shù)的最大值,對(duì)其進(jìn)行歸一化處理,使取值在0到1之間;
S44:計(jì)算融合三種字形信息后的字符串編輯距離dc,字符串str1和str2的長度分別為m和n,構(gòu)造矩陣LDm+1,n+1,給矩陣中的每個(gè)元素賦值,改進(jìn)后的賦值公式如下:
將傳統(tǒng)編輯距離替換操作代價(jià)為1改進(jìn)為替換字符之間的五筆編碼編輯距離、四角碼編輯距離和筆畫差值相加的歸一化值;其中,ai為字符串str1中第i個(gè)字符,bj為字符串str2中第j個(gè)字符;w1為dwb/4,是兩個(gè)字符五筆編碼的編碼距離歸一化結(jié)果,w2為dsj/5,是兩個(gè)字符四角碼編碼距離歸一化結(jié)果,w3為|stroi-stroj|/max(stroi,stroj),表示兩個(gè)字符之間筆畫差異;
S5:計(jì)算融合字形信息的字符串相似度Simc,公式如下:
S6:將相似度最高的字符串作為糾錯(cuò)結(jié)果進(jìn)行替換。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110015403.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





