[發(fā)明專利]一種在醫(yī)療文本中提取疾病誘因、病因的方法及裝置及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011067120.5 | 申請(qǐng)日: | 2020-10-05 |
| 公開(公告)號(hào): | CN112151186A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 馮洪海;侯瑞輝;魏亞舉;李云鵬;王赫;栗哲遠(yuǎn) | 申請(qǐng)(專利權(quán))人: | 河南大學(xué) |
| 主分類號(hào): | G16H50/70 | 分類號(hào): | G16H50/70;G16H10/60;G06F16/33;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 475004 河南省開封*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 醫(yī)療 文本 提取 疾病 誘因 病因 方法 裝置 系統(tǒng) | ||
本發(fā)明公開了一種在醫(yī)療文本中提取疾病誘因、病因的方法及裝置及系統(tǒng),具體涉及自然語言處理信息抽取技術(shù)領(lǐng)域。本發(fā)明主要包括讀取模塊、計(jì)算模塊、展示模塊。讀取模塊主要指系統(tǒng)讀取輸入的一些醫(yī)療文本。計(jì)算模塊主要包含關(guān)系詞提取單元、疾病提取單元、病因提取單元。主要包括如下步驟:a.系統(tǒng)讀取準(zhǔn)確的疾病和病因;b.通過正確的疾病和病因?qū)W習(xí)關(guān)系詞;c.通過疾病和關(guān)系詞學(xué)習(xí)病因;d.通過病因和關(guān)系詞學(xué)習(xí)疾病。對(duì)抽取結(jié)果進(jìn)行評(píng)估。展示模塊主要包含:存儲(chǔ)單元、輸出單元。本發(fā)明以公開的非結(jié)構(gòu)化醫(yī)療文本為起點(diǎn),最終實(shí)現(xiàn)醫(yī)療文本中疾病誘因、病因的準(zhǔn)確抽取。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理信息抽取的技術(shù)領(lǐng)域,具體涉及一種在醫(yī)療文本中提取疾病誘因、病因的方法及裝置及系統(tǒng)。
背景技術(shù)
近些年來,積累了大量的醫(yī)療文本。醫(yī)療文本主要包括專業(yè)教材、專業(yè)醫(yī)療網(wǎng)站、醫(yī)療大典、電子病例、科研期刊中的醫(yī)療學(xué)術(shù)論文。這些醫(yī)療文本中包含了豐富的醫(yī)療數(shù)據(jù),其中主要包括疾病的病因、癥狀、治療、診斷等信息。但是這些海量的數(shù)據(jù)大多以半結(jié)構(gòu)化或非結(jié)構(gòu)化的形式存在,目前自然語言處理或信息抽取技術(shù)對(duì)于在非結(jié)構(gòu)化文本中提取完整、準(zhǔn)確的信息都不太成熟。已有公司或產(chǎn)品尚不能將疾病誘因、病因提取到幾萬的準(zhǔn)確水平。本發(fā)明主要分析醫(yī)療文本中常用句式,將句式數(shù)學(xué)化,設(shè)計(jì)了一種迭代算法和程序,能夠從醫(yī)療文本中迭代地獲取幾萬準(zhǔn)確的疾病誘因、病因。
隨著計(jì)算機(jī)的不斷發(fā)展,文本挖掘系統(tǒng)已經(jīng)得到了實(shí)現(xiàn)。如一種基于非結(jié)構(gòu)化電子病歷的文本挖掘方法及系統(tǒng),專利申請(qǐng)?zhí)枮?01910701406.5,包括了文本預(yù)處理模塊、特征工程模塊、分析預(yù)測(cè)模塊。該發(fā)明主要提取的特征有癥狀、檢查所見、放化療方案、療效評(píng)價(jià)等。所述專利以時(shí)間節(jié)點(diǎn)進(jìn)行切分住院記錄,通過規(guī)則庫(kù)的疾病信息提取來抽取特征,最后通過無監(jiān)督聚類實(shí)現(xiàn)文本聚類。該專利是以時(shí)間節(jié)點(diǎn)進(jìn)行切分,句子的完整語義沒有考慮進(jìn)去。輸入文本僅僅包括了醫(yī)院數(shù)據(jù)庫(kù)中的病史記錄,數(shù)據(jù)來源范圍較小。
在醫(yī)療領(lǐng)域的識(shí)別任務(wù)中面臨著很多困難,主要有以下幾個(gè)方面:
從提取過程來看:
醫(yī)療領(lǐng)域通常包含豐富的實(shí)體類別;
實(shí)體上下文存在著很多不同的修飾和限定詞從而導(dǎo)致了實(shí)體的邊界較難確定并劃分;
待提取的實(shí)體通常存在著不同更多描述方式;
病因?qū)嶓w的長(zhǎng)度通常較難確定。
從提取結(jié)果來看:
提取的誘因、病因數(shù)量不多,僅僅幾千,多則上萬,但沒有達(dá)到幾萬至十萬的規(guī)模。涉及的疾病僅僅幾千,沒有達(dá)到上萬直至幾萬的規(guī)模。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種在醫(yī)療文本中提取疾病誘因、病因的方法及裝置及系統(tǒng)。以解決上述背景技術(shù)中提出的問題。本發(fā)明目的為以醫(yī)療文本為起點(diǎn),最終實(shí)現(xiàn)在醫(yī)療文本中抽取疾病病因、誘因?qū)嶓w。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種疾病病因、誘因抽取方法,所述方法主要包括:
步驟1:獲取醫(yī)療文本和病因句式結(jié)構(gòu);
步驟2:基于句式結(jié)構(gòu),在醫(yī)療文本中,通過疾病、病因獲取各句式結(jié)構(gòu)的關(guān)系詞;
步驟3:關(guān)系詞除雜、并入已有的關(guān)系詞集合中;
步驟4:基于句式結(jié)構(gòu),在醫(yī)療文本中,通過疾病和關(guān)系詞學(xué)習(xí)各句式結(jié)構(gòu)的病因;
步驟5:病因除雜、驗(yàn)證、并入已有的病因集合中;
步驟6:基于句式結(jié)構(gòu),在醫(yī)療文本中,通過病因和關(guān)系詞學(xué)習(xí)各句式結(jié)構(gòu)的疾病;
步驟7:疾病進(jìn)行除雜、并入已有的疾病集合中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南大學(xué),未經(jīng)河南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011067120.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種能夠固定的麻醉喉鏡
- 下一篇:一種便于散熱的電力柜
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 疾病風(fēng)險(xiǎn)預(yù)測(cè)方法以及執(zhí)行該方法的裝置
- 利用疾病與人體部位的映射進(jìn)行疾病信息可視化的方法
- 疾病術(shù)語的詞處理方法、裝置及計(jì)算機(jī)設(shè)備
- 一種疾病名稱標(biāo)準(zhǔn)化規(guī)范數(shù)據(jù)庫(kù)及其建立方法
- 疾病預(yù)測(cè)方法、裝置、終端及存儲(chǔ)介質(zhì)
- 疾病風(fēng)險(xiǎn)預(yù)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 疾病信息識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 疾病的層級(jí)關(guān)系處理方法、裝置及電子設(shè)備
- 一種基于復(fù)雜網(wǎng)絡(luò)的疾病進(jìn)展路徑挖掘方法
- 知識(shí)圖譜的構(gòu)建和使用方法、裝置和介質(zhì)





