[發(fā)明專利]一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110169271.X | 申請(qǐng)日: | 2021-02-07 |
| 公開(公告)號(hào): | CN112802570A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 杜斌;朱智源 | 申請(qǐng)(專利權(quán))人: | 成都延華西部健康醫(yī)療信息產(chǎn)業(yè)研究院有限公司 |
| 主分類號(hào): | G16H10/60 | 分類號(hào): | G16H10/60;G16H50/70;G06F40/295;G06F40/242;G06N3/08 |
| 代理公司: | 成都創(chuàng)新引擎知識(shí)產(chǎn)權(quán)代理有限公司 51249 | 代理人: | 向群 |
| 地址: | 611130 四川省成都市溫江區(qū)*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 電子 病歷 命名 實(shí)體 識(shí)別 系統(tǒng) 方法 | ||
1.一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,包括:
數(shù)據(jù)清洗單元,對(duì)電子病歷的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,得到規(guī)范原始數(shù)據(jù);
規(guī)則預(yù)標(biāo)注單元,通過標(biāo)注規(guī)則對(duì)規(guī)范原始數(shù)據(jù)進(jìn)行規(guī)則預(yù)標(biāo)注,得到規(guī)則預(yù)標(biāo)注數(shù)據(jù);
算法預(yù)標(biāo)注單元,通過標(biāo)注算法對(duì)規(guī)則預(yù)標(biāo)注數(shù)據(jù)進(jìn)行算法預(yù)標(biāo)注,得到預(yù)標(biāo)注數(shù)據(jù)集;
人工檢驗(yàn)與標(biāo)注單元,標(biāo)注人員對(duì)預(yù)標(biāo)注數(shù)據(jù)集進(jìn)行校正與標(biāo)注從而生成標(biāo)準(zhǔn)數(shù)據(jù)集;
構(gòu)建輸入數(shù)據(jù)單元,針對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行分類構(gòu)建輸入,得到輸入數(shù)據(jù);
模型搭建單元,搭建電子病歷命名實(shí)體識(shí)別模型,即,第一層采用transformer特征提取的方式提取輸入數(shù)據(jù)的特征信息,第二層采用隨機(jī)刪除dropout的方式進(jìn)行輸出,第三層采用批量歸一化Batch Normalization的方式進(jìn)行防止梯度爆炸,第四層采用bilstm對(duì)特征進(jìn)行二次提取,第五層采用隨機(jī)刪除dropout的方式進(jìn)行防止過擬合,第六層采用前饋神經(jīng)網(wǎng)絡(luò)將上一層的結(jié)果進(jìn)行壓縮到標(biāo)簽類別數(shù)并使用sigmoid函數(shù)進(jìn)行激活;
模型訓(xùn)練單元,將輸入數(shù)據(jù)輸入到電子病歷命名實(shí)體識(shí)別模型進(jìn)行訓(xùn)練;
超參數(shù)調(diào)整單元,通過訓(xùn)練過程中l(wèi)oss下降情況以及測試集中f1綜合調(diào)整超參數(shù)到最優(yōu)參數(shù);
模型生成單元,超參數(shù)調(diào)整完畢之后保存模型結(jié)構(gòu),保存模型權(quán)重,即得到最終的電子病歷命名實(shí)體識(shí)別模型。
2.如權(quán)利要求1所述的一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,數(shù)據(jù)清洗單元中數(shù)據(jù)清洗是指將中文、標(biāo)點(diǎn)符號(hào)、英文進(jìn)行規(guī)范統(tǒng)一。
3.如權(quán)利要求1所述的一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,規(guī)則預(yù)標(biāo)注單元中,針對(duì)規(guī)范原始數(shù)據(jù)中的時(shí)間點(diǎn)和時(shí)間段的描述進(jìn)行正則提取,編寫正則庫,針對(duì)不同規(guī)律的時(shí)間表述進(jìn)行分類,將提取之后的實(shí)體進(jìn)行預(yù)標(biāo)注。
4.如權(quán)利要求1所述的一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,算法預(yù)標(biāo)注單元中,使用規(guī)范的藥品庫、疾病庫、手術(shù)庫、癥狀庫規(guī)范名稱構(gòu)建相對(duì)應(yīng)的實(shí)體字典,字典作為需要迭代更新的專有實(shí)體名稱,字典中的名稱剔除字符長度小于2的詞,使用北京大學(xué)分詞包pkuseg,設(shè)定分詞模型為medicine;對(duì)原始語句進(jìn)行分詞,使用標(biāo)點(diǎn)符號(hào)進(jìn)行識(shí)別出子序列;針對(duì)子序列采用由長到短的遞歸合并方式字典查詢;如果某幾個(gè)子詞的合并能夠在標(biāo)準(zhǔn)詞典中找到,則直接對(duì)這個(gè)子串進(jìn)行實(shí)體標(biāo)注并使用特殊的占位字符進(jìn)行占位;其他子序列中的詞繼續(xù)執(zhí)行遞歸合并方式字典查詢直到所有的子序列都查詢完畢。
5.如權(quán)利要求1所述的一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,人工檢驗(yàn)與標(biāo)注單元中,標(biāo)注人員針對(duì)預(yù)標(biāo)注數(shù)據(jù)集進(jìn)行人工核對(duì),針對(duì)其中標(biāo)注錯(cuò)誤的地方進(jìn)行修正,針對(duì)預(yù)標(biāo)注沒有標(biāo)注到的地方進(jìn)行標(biāo)注;將所有的修正與標(biāo)注操作記錄下來構(gòu)建日志,為后續(xù)的統(tǒng)計(jì)分析這部分操作積累數(shù)據(jù),為迭代預(yù)標(biāo)注的規(guī)則庫以及算法提供決策指導(dǎo);將人工校驗(yàn)與標(biāo)注后的數(shù)據(jù)作為標(biāo)注數(shù)據(jù),即標(biāo)準(zhǔn)數(shù)據(jù)集。
6.如權(quán)利要求1所述的一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,構(gòu)建輸入數(shù)據(jù)單元中,針對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行分類構(gòu)建輸入;使用預(yù)訓(xùn)練的字向量庫獲取到輸入語料字符級(jí)語義序列向量;針對(duì)輸入序列中的標(biāo)點(diǎn)符號(hào)根據(jù)在序列中的位置獲取出標(biāo)點(diǎn)符號(hào)one_hot編碼,從而構(gòu)建出基于位置的標(biāo)點(diǎn)符號(hào)序列向量;根據(jù)預(yù)標(biāo)注信息對(duì)輸入數(shù)據(jù)對(duì)應(yīng)位置上的實(shí)體類別標(biāo)簽進(jìn)行類別信息編碼并構(gòu)建為融合實(shí)體類別信息與位置信息的序列向量;將三個(gè)序列向量進(jìn)行拼接構(gòu)建成一個(gè)序列向量作為模型的輸入數(shù)據(jù)。
7.如權(quán)利要求1所述的一種針對(duì)電子病歷命名實(shí)體識(shí)別系統(tǒng),其特征在于,模型訓(xùn)練單元中,將訓(xùn)練數(shù)據(jù)輸入模型,通過模型計(jì)算得到輸出,該輸出為序列向量;設(shè)定一個(gè)超參數(shù)閾值0.5,對(duì)模型輸出數(shù)據(jù)中大于0.5的索引位置數(shù)值進(jìn)行向上取整,其他數(shù)據(jù)向下取整,從而形成新的輸出序列向量;對(duì)比標(biāo)準(zhǔn)數(shù)據(jù)的序列標(biāo)記向量,使用二分類交叉熵?fù)p失函數(shù)binary_crossentropy對(duì)預(yù)測值與標(biāo)簽進(jìn)行l(wèi)oss構(gòu)建;使用adam優(yōu)化函數(shù)進(jìn)行優(yōu)化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都延華西部健康醫(yī)療信息產(chǎn)業(yè)研究院有限公司,未經(jīng)成都延華西部健康醫(yī)療信息產(chǎn)業(yè)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110169271.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種在多種電子設(shè)備,尤其是在電子服務(wù)提供商的電子設(shè)備和電子服務(wù)用戶的電子設(shè)備之間建立受保護(hù)的電子通信的方法
- 一種電子打火機(jī)及其裝配方法
- 電子檔案管理系統(tǒng)
- 在處理系統(tǒng)化學(xué)分析中使用的電子束激勵(lì)器
- 電子文件管理方法和管理系統(tǒng)
- 一種有效電子憑據(jù)生成、公開驗(yàn)證方法、裝置及系統(tǒng)
- 電子文憑讀寫控制系統(tǒng)和方法
- 具有加密解密功能的智能化電子證件管理裝置
- 一種基于數(shù)字證書的電子印章方法及電子印章系統(tǒng)
- 一種電子印章使用方法、裝置及電子設(shè)備
- 一種基于網(wǎng)絡(luò)的病歷資料存儲(chǔ)流轉(zhuǎn)方法及系統(tǒng)
- 一種高效查找病歷夾的病歷夾和病歷車系統(tǒng)
- 電子病歷的質(zhì)檢方法、相似病歷的提醒方法及裝置
- 電子病歷的生成方法及裝置
- 用于輸出病歷的方法和裝置
- 相似病歷查找方法及系統(tǒng)
- 一種生成診前病歷的方法及裝置
- 一種基于標(biāo)準(zhǔn)數(shù)據(jù)庫的電子病歷模板配置系統(tǒng)
- 基于動(dòng)態(tài)病情的病歷分組方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于科室流程化工作的全生命周期結(jié)構(gòu)化電子病歷系統(tǒng)
- 具有多位字段的寄存器的重命名
- 命名實(shí)體識(shí)別方法及裝置
- 主命名節(jié)點(diǎn)設(shè)置方法及裝置
- 命名實(shí)體的識(shí)別方法、識(shí)別系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文件默認(rèn)命名方法、裝置和電子設(shè)備
- 命名實(shí)體識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種集群命名空間管理方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





