[發(fā)明專利]一種復(fù)雜醫(yī)療實體抽取方法有效
| 申請?zhí)枺?/td> | 202110430144.0 | 申請日: | 2021-04-21 |
| 公開(公告)號: | CN112989835B | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計)人: | 湯步洲;張可成;熊英 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 深圳市添源知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44451 | 代理人: | 于標(biāo) |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 復(fù)雜 醫(yī)療 實體 抽取 方法 | ||
本發(fā)明提供了一種復(fù)雜醫(yī)療實體抽取方法,包括執(zhí)行以下任一項步驟:抽取單層連續(xù)實體和非連續(xù)實體步驟:對原始醫(yī)療文本進(jìn)行預(yù)處理,采用基于依存分析的非連續(xù)實體雙向標(biāo)注方法進(jìn)行標(biāo)注,然后建立非連續(xù)實體抽取模型并使用雙仿射分類器作為解碼器,最后將預(yù)測標(biāo)注還原為實體;抽取單層連續(xù)實體和嵌套實體步驟:對原始醫(yī)療文本進(jìn)行預(yù)處理,采用基于依存分析的嵌套實體雙向標(biāo)注方法進(jìn)行標(biāo)注,然后建立嵌套實體抽取模型并使用雙仿射分類器作為解碼器,最后將預(yù)測標(biāo)注還原為實體;抽取單層連續(xù)實體、非連續(xù)實體和嵌套實體步驟。本發(fā)明的有益效果是:本發(fā)明具有充分挖掘文本上下文信息,提高模型泛化性,增強模型對實體的識別準(zhǔn)確率等優(yōu)點。
技術(shù)領(lǐng)域
本發(fā)明涉及醫(yī)療數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種復(fù)雜醫(yī)療實體抽取方法。
背景技術(shù)
實體抽取是自然語言處理(Natural Language Processing, NLP)研究中的一項基本任務(wù),旨在抽取文本中特定的結(jié)構(gòu)化信息,可分為開放域?qū)嶓w識別和垂直域?qū)嶓w識別兩類,前者識別如人名和地名等實體,后者識別如醫(yī)療文本中的癥狀和疾病等實體。實體抽取應(yīng)用廣泛,是信息檢索、知識圖譜等NLP技術(shù)的基礎(chǔ),直接影響下游任務(wù)性能的優(yōu)劣。
近年來,隨著信息產(chǎn)業(yè)的快速發(fā)展與公民健康意識的日益提高,智慧醫(yī)療行業(yè)快速發(fā)展。現(xiàn)代醫(yī)療系統(tǒng)中積累了海量的醫(yī)療文本數(shù)據(jù),包括電子病歷和醫(yī)療文獻(xiàn)等,蘊含了寶貴的臨床醫(yī)療信息。智能醫(yī)療的火爆催生了很多在線醫(yī)療網(wǎng)站,累積了豐富的醫(yī)療案例。海量的醫(yī)療數(shù)據(jù)具有重大的價值,如何高效的利用和挖掘醫(yī)療文本數(shù)據(jù),從中獲取有效的知識以提高醫(yī)療水平,是當(dāng)前面臨的重要挑戰(zhàn)。
醫(yī)療文本數(shù)據(jù)包含豐富的知識,醫(yī)療實體抽取是醫(yī)療文本挖掘的基礎(chǔ),是知識的直接體現(xiàn),受到國內(nèi)外學(xué)者的廣泛關(guān)注。I2B2中心(Informatics for IntegratingBiology the Beside)多次組織關(guān)于臨床醫(yī)療實體識別的國際公開評測,CCKS(ChinaConference on Knowledge Graph and Semantic Computing)連續(xù)多年開展基于中文電子病歷的命名實體識別(Named Entity Recognition, NER)評測任務(wù)。
醫(yī)療文本數(shù)據(jù)內(nèi)容豐富,包含病人的各種信息,如疾病名稱、病癥記錄、病因分析及用藥信息等。醫(yī)療文本數(shù)據(jù)具有多樣性的特點,包含了大量結(jié)構(gòu)不完整的短語和短句,并且描述信息中有很多專業(yè)名詞出現(xiàn),會有大量的連續(xù)實體、非連續(xù)實體和嵌套實體出現(xiàn)。連續(xù)實體由連續(xù)的字詞組成,比如“感冒”和“發(fā)燒”;非連續(xù)實體由不連續(xù)的字詞組成,比如“身體經(jīng)檢查健康”中的“身體健康”;嵌套實體指實體與其他實體存在嵌套關(guān)系,如“糖尿病患者”中“糖尿病患者”實體和“糖尿病”實體。
發(fā)明內(nèi)容
本發(fā)明提供了一種復(fù)雜醫(yī)療實體抽取方法,包括執(zhí)行以下任一項步驟:
抽取單層連續(xù)實體和非連續(xù)實體步驟:首先對原始醫(yī)療文本進(jìn)行預(yù)處理,并采用基于依存分析的非連續(xù)實體雙向標(biāo)注方法進(jìn)行標(biāo)注,然后建立非連續(xù)實體抽取模型并使用雙仿射分類器作為解碼器,最后將預(yù)測標(biāo)注還原為實體。
抽取單層連續(xù)實體和嵌套實體步驟:首先對原始醫(yī)療文本進(jìn)行預(yù)處理,并采用基于依存分析的嵌套實體雙向標(biāo)注方法進(jìn)行標(biāo)注,然后建立嵌套實體抽取模型并使用雙仿射分類器作為解碼器,最后將預(yù)測標(biāo)注還原為實體。
抽取單層連續(xù)實體、非連續(xù)實體和嵌套實體步驟:首先對原始醫(yī)療文本進(jìn)行預(yù)處理,并采用分層標(biāo)注的基于依存分析的非連續(xù)實體雙向標(biāo)注方法標(biāo)注每一層的實體,然后建立分層實體抽取模型并使用雙仿射分類器作為解碼器,最后將預(yù)測標(biāo)注還原為實體。
作為本發(fā)明的進(jìn)一步改進(jìn),在所述抽取單層連續(xù)實體和嵌套實體步驟中,還包括執(zhí)行如下步驟:
步驟1:預(yù)處理階段,對原始文本進(jìn)行分詞和映射,并采用非連續(xù)實體雙向標(biāo)注方法進(jìn)行標(biāo)注。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院),未經(jīng)哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110430144.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





