[發(fā)明專利]一種針對電子病歷命名實(shí)體識別系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 202110169271.X | 申請日: | 2021-02-07 |
| 公開(公告)號: | CN112802570A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 杜斌;朱智源 | 申請(專利權(quán))人: | 成都延華西部健康醫(yī)療信息產(chǎn)業(yè)研究院有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G16H50/70;G06F40/295;G06F40/242;G06N3/08 |
| 代理公司: | 成都創(chuàng)新引擎知識產(chǎn)權(quán)代理有限公司 51249 | 代理人: | 向群 |
| 地址: | 611130 四川省成都市溫江區(qū)*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 電子 病歷 命名 實(shí)體 識別 系統(tǒng) 方法 | ||
本發(fā)明公開了一種針對電子病歷命名實(shí)體識別系統(tǒng)及方法;進(jìn)行數(shù)據(jù)清洗,將清洗之后的數(shù)據(jù)進(jìn)行基于規(guī)則的預(yù)標(biāo)注,將結(jié)果返回給標(biāo)注算法進(jìn)行二次標(biāo)注并生成預(yù)標(biāo)注數(shù)據(jù)集,再將結(jié)果返回給標(biāo)注人員進(jìn)行校正與標(biāo)注從而生成標(biāo)準(zhǔn)數(shù)據(jù)集。根據(jù)對比分析預(yù)標(biāo)注數(shù)據(jù)集與標(biāo)準(zhǔn)數(shù)據(jù)集的差異,修正規(guī)則與算法。獲取線上預(yù)測數(shù)據(jù),通過人工進(jìn)行核對校驗(yàn)補(bǔ)充進(jìn)標(biāo)準(zhǔn)數(shù)據(jù)集,將原始數(shù)據(jù)送入預(yù)標(biāo)注系統(tǒng)補(bǔ)充預(yù)標(biāo)注數(shù)據(jù)集,累計(jì)到一定規(guī)模之后重新訓(xùn)練模型迭代模型。本發(fā)明將命名實(shí)體識別整個(gè)工業(yè)應(yīng)用流程進(jìn)行整合與改造,構(gòu)建出適用于工業(yè)場景的命名實(shí)體識別框架。
技術(shù)領(lǐng)域
本發(fā)明屬于新一代信息技術(shù)領(lǐng)域,具體涉及一種針對電子病歷命名實(shí)體識別系統(tǒng)及方法。
背景技術(shù)
電子病歷命名實(shí)體識別是電子病歷結(jié)構(gòu)化的基礎(chǔ)性研究,能夠準(zhǔn)確的識別出電子病歷中的命名實(shí)體就能為后續(xù)的電子病歷分析提供強(qiáng)有力的支撐。電子病歷是一種半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),其中存在可讀性很高的結(jié)構(gòu)化數(shù)據(jù),同時(shí)也存在解析難度很高的自由文本。然而在自由文本中存在大量的診療相關(guān)信息,這些信息具有診療數(shù)據(jù)追蹤、醫(yī)學(xué)統(tǒng)計(jì)分析、地區(qū)流行病預(yù)防等重要應(yīng)用。命名實(shí)體識別就是針對電子病歷中自由文本進(jìn)行實(shí)體抽取。
一個(gè)高效合理的電子病歷命名實(shí)體識別框架是得到電子病歷命名實(shí)體識別模型的基礎(chǔ)。通常框架包含了從數(shù)據(jù)獲取→數(shù)據(jù)標(biāo)注→數(shù)據(jù)處理→模型訓(xùn)練→模型保存整個(gè)流程。框架各單元相關(guān)連接,相互依賴。
隨著電子病歷命名實(shí)體工作的持續(xù)升溫,對于這種醫(yī)療自由文本有著更為深入的分析,從而發(fā)現(xiàn)當(dāng)前的電子病歷命名實(shí)體識別框架已經(jīng)無法滿足當(dāng)前的應(yīng)用需求,同時(shí)電子病歷命名實(shí)體識別模型本身的準(zhǔn)確性還遠(yuǎn)遠(yuǎn)不夠。
因此對目前業(yè)界存在的問題總結(jié)如下:
A由于電子病歷命名實(shí)體識別框架的高耦合性與相互依賴特點(diǎn)使得電子病歷命名實(shí)體識別框架各個(gè)環(huán)節(jié)無法有效拆分,功能之間無法獨(dú)立。
B使用ai技術(shù)進(jìn)行電子病歷命名實(shí)體識別的核心模型存在‘黑盒’效應(yīng),無法達(dá)到對電子病歷命名實(shí)體識別做到可控。
C電子病歷命名實(shí)體識別鮮有能夠識別出嵌套命名實(shí)體(Nested Named EntityRecognition),然而嵌套命名實(shí)體在電子病歷中卻很常見。
D電子病歷命名實(shí)體識別模型的輸入數(shù)據(jù)挖掘還不夠充分,需要充分利用電子病歷數(shù)據(jù)強(qiáng)標(biāo)準(zhǔn)化特點(diǎn),完善對語句中標(biāo)點(diǎn)符號的深度挖掘。
E使用較高準(zhǔn)確性的先驗(yàn)數(shù)據(jù)來提升模型整體準(zhǔn)確性的方案還需要充分挖掘。
因此本申請的電子病歷命名實(shí)體識別框架將針對上述問題進(jìn)行逐個(gè)解決。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種針對電子病歷命名實(shí)體識別系統(tǒng)及方法,用于解決上解決上述場景的問題,如:從工業(yè)應(yīng)用場景出發(fā),針對標(biāo)注數(shù)據(jù)成本過高,框架內(nèi)部過度依賴,模型輸入數(shù)據(jù)信息挖掘不充分,無法識別嵌套命名實(shí)體等問題。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:
一種針對電子病歷命名實(shí)體識別系統(tǒng),包括:
數(shù)據(jù)清洗單元,對電子病歷的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,得到規(guī)范原始數(shù)據(jù);
規(guī)則預(yù)標(biāo)注單元,通過標(biāo)注規(guī)則對規(guī)范原始數(shù)據(jù)進(jìn)行規(guī)則預(yù)標(biāo)注,得到規(guī)則預(yù)標(biāo)注數(shù)據(jù);
算法預(yù)標(biāo)注單元,通過標(biāo)注算法對規(guī)則預(yù)標(biāo)注數(shù)據(jù)進(jìn)行算法預(yù)標(biāo)注,得到預(yù)標(biāo)注數(shù)據(jù)集;
人工檢驗(yàn)與標(biāo)注單元,標(biāo)注人員對預(yù)標(biāo)注數(shù)據(jù)集進(jìn)行校正與標(biāo)注從而生成標(biāo)準(zhǔn)數(shù)據(jù)集;
構(gòu)建輸入數(shù)據(jù)單元,針對已經(jīng)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行分類構(gòu)建輸入,得到輸入數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都延華西部健康醫(yī)療信息產(chǎn)業(yè)研究院有限公司,未經(jīng)成都延華西部健康醫(yī)療信息產(chǎn)業(yè)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110169271.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種在多種電子設(shè)備,尤其是在電子服務(wù)提供商的電子設(shè)備和電子服務(wù)用戶的電子設(shè)備之間建立受保護(hù)的電子通信的方法
- 一種電子打火機(jī)及其裝配方法
- 電子檔案管理系統(tǒng)
- 在處理系統(tǒng)化學(xué)分析中使用的電子束激勵(lì)器
- 電子文件管理方法和管理系統(tǒng)
- 一種有效電子憑據(jù)生成、公開驗(yàn)證方法、裝置及系統(tǒng)
- 電子文憑讀寫控制系統(tǒng)和方法
- 具有加密解密功能的智能化電子證件管理裝置
- 一種基于數(shù)字證書的電子印章方法及電子印章系統(tǒng)
- 一種電子印章使用方法、裝置及電子設(shè)備
- 具有多位字段的寄存器的重命名
- 命名實(shí)體識別方法及裝置
- 主命名節(jié)點(diǎn)設(shè)置方法及裝置
- 命名實(shí)體的識別方法、識別系統(tǒng)及計(jì)算機(jī)可讀存儲介質(zhì)
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲介質(zhì)
- 文件默認(rèn)命名方法、裝置和電子設(shè)備
- 命名實(shí)體識別方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 一種集群命名空間管理方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲介質(zhì)





