[發(fā)明專利]病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110223444.1 | 申請(qǐng)日: | 2021-03-01 |
| 公開(kāi)(公告)號(hào): | CN112949303A | 公開(kāi)(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計(jì))人: | 鐘信真;左霖 | 申請(qǐng)(專利權(quán))人: | 山東健康醫(yī)療大數(shù)據(jù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/216;G06F40/242;G16H10/60 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250117 山東省濟(jì)南市槐*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 病歷 文本 數(shù)據(jù)結(jié)構(gòu) 分詞 解析 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)了病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法及系統(tǒng),屬于病歷數(shù)據(jù)挖掘技術(shù)領(lǐng)域,要解決的技術(shù)問(wèn)題為如何解決傳統(tǒng)病歷數(shù)據(jù)中存在的挖掘效率低、精確性差以及不滿足病例實(shí)體映射關(guān)系的缺陷。包括如下步驟:基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù);基于詞庫(kù)詞典生成待分詞醫(yī)療文本數(shù)據(jù)的所有成詞,并基于上述所有成詞構(gòu)建有向無(wú)環(huán)圖;基于上述醫(yī)學(xué)詞庫(kù)和有向無(wú)環(huán)圖,通過(guò)動(dòng)態(tài)規(guī)劃查找最大歸零路徑查找語(yǔ)句詞頻的最大切分組合,得到帶有前后文順序和詞性的詞語(yǔ)集合;通過(guò)三元關(guān)系模型對(duì)上述詞語(yǔ)集合進(jìn)行解析,得到三元映射關(guān)系數(shù)據(jù)組;對(duì)上述三元映射關(guān)系數(shù)據(jù)組進(jìn)行標(biāo)準(zhǔn)化處理,得二元映射關(guān)系數(shù)據(jù)組。
技術(shù)領(lǐng)域
本發(fā)明涉及病歷數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體地說(shuō)是病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法及系統(tǒng)。
背景技術(shù)
醫(yī)學(xué)領(lǐng)域數(shù)據(jù)具有其特殊性,主要包括診斷、疾病、藥物、治療等類別,癌癥專病數(shù)據(jù)在這些類別基礎(chǔ)上,更加關(guān)注于和疾病相關(guān)的并發(fā)癥數(shù)據(jù)、病理及免疫組化數(shù)據(jù),和治療相關(guān)的手術(shù)、放療、化療、靶向治療、中醫(yī)治療數(shù)據(jù),和病人相關(guān)的家族史、疾病史數(shù)據(jù)等,這些數(shù)據(jù)大多為非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本數(shù)據(jù)存儲(chǔ)于患者病歷數(shù)據(jù)中。
數(shù)據(jù)挖掘主要是利用算法進(jìn)行相關(guān)信息抽取,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別、處理的結(jié)構(gòu)化數(shù)據(jù)。
傳統(tǒng)專病數(shù)據(jù)挖掘,由于數(shù)據(jù)源少、數(shù)據(jù)量小的原因,一般由人為手工識(shí)別處理,存在效率低、不滿足組大數(shù)據(jù)情況下專病數(shù)據(jù)治理挖掘的缺點(diǎn)。
基于上述分析,如何解決傳統(tǒng)病歷數(shù)據(jù)中存在的挖掘效率低、精確性差以及不滿足病例實(shí)體映射關(guān)系的缺陷,是需要解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足,提供病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法及系統(tǒng),來(lái)解決如何解決傳統(tǒng)病歷數(shù)據(jù)中存在的挖掘效率低、精確性差以及不滿足病例實(shí)體映射關(guān)系的缺陷的技術(shù)問(wèn)題。
第一方面,本發(fā)明提供一種病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法,包括如下步驟:
基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù),所述醫(yī)學(xué)詞庫(kù)包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性,所述詞性包括詞語(yǔ)傳統(tǒng)詞性和詞語(yǔ)醫(yī)學(xué)詞性;
基于詞庫(kù)詞典生成待分詞醫(yī)療文本數(shù)據(jù)的所有成詞,并基于上述所有成詞構(gòu)建有向無(wú)環(huán)圖;
基于上述醫(yī)學(xué)詞庫(kù)和有向無(wú)環(huán)圖,通過(guò)動(dòng)態(tài)規(guī)劃查找最大歸零路徑查找語(yǔ)句詞頻的最大切分組合,得到帶有前后文順序和詞性的詞語(yǔ)集合;
基于詞語(yǔ)所處位置、詞語(yǔ)原本詞性以及詞語(yǔ)醫(yī)學(xué)詞性三個(gè)維度構(gòu)建三元結(jié)構(gòu)數(shù)據(jù)以及三元結(jié)構(gòu)數(shù)據(jù)之間的映射關(guān)系組成三元關(guān)系模型,并通過(guò)上述三元關(guān)系模型對(duì)上述詞語(yǔ)集合進(jìn)行解析,得到三元映射關(guān)系數(shù)據(jù)組;
對(duì)上述三元映射關(guān)系數(shù)據(jù)組進(jìn)行標(biāo)準(zhǔn)化處理,得二元映射關(guān)系數(shù)據(jù)組,所述二元映射關(guān)系數(shù)據(jù)組匹配標(biāo)準(zhǔn)醫(yī)療詞典。
作為優(yōu)選,所述詞語(yǔ)傳統(tǒng)詞性包括名詞、動(dòng)詞、副詞和標(biāo)點(diǎn);
所述詞語(yǔ)醫(yī)學(xué)詞性包括診斷、疾病、藥品、化療方案、放療方案以及稱謂。
作為優(yōu)選,基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù),包括如下步驟:
獲取醫(yī)療文本數(shù)據(jù),通過(guò)詞庫(kù)對(duì)醫(yī)療文本數(shù)據(jù)進(jìn)行分詞,得到分詞結(jié)果數(shù)據(jù)集;
通過(guò)TF-IDF算法模型對(duì)分詞結(jié)果數(shù)據(jù)集進(jìn)行關(guān)鍵醫(yī)學(xué)詞匯抽詞,得到抽詞結(jié)果數(shù)據(jù)集;
添加醫(yī)學(xué)詞匯相關(guān)的權(quán)重和詞性,得到包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性的醫(yī)學(xué)詞庫(kù)。
作為優(yōu)選,對(duì)抽詞結(jié)果數(shù)據(jù)集中連續(xù)多個(gè)單字進(jìn)行醫(yī)學(xué)詞匯組合拼接后,添加醫(yī)學(xué)詞匯相關(guān)的權(quán)重和詞性,得到包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性的醫(yī)學(xué)詞庫(kù)。
作為優(yōu)選,對(duì)于醫(yī)學(xué)詞庫(kù)中未登錄的醫(yī)療文本數(shù)據(jù),通過(guò)基于漢字成詞的HMM模型進(jìn)行分詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東健康醫(yī)療大數(shù)據(jù)有限公司,未經(jīng)山東健康醫(yī)療大數(shù)據(jù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110223444.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于網(wǎng)絡(luò)的病歷資料存儲(chǔ)流轉(zhuǎn)方法及系統(tǒng)
- 一種高效查找病歷夾的病歷夾和病歷車(chē)系統(tǒng)
- 電子病歷的質(zhì)檢方法、相似病歷的提醒方法及裝置
- 電子病歷的生成方法及裝置
- 用于輸出病歷的方法和裝置
- 相似病歷查找方法及系統(tǒng)
- 一種生成診前病歷的方法及裝置
- 一種基于標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的電子病歷模板配置系統(tǒng)
- 基于動(dòng)態(tài)病情的病歷分組方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于科室流程化工作的全生命周期結(jié)構(gòu)化電子病歷系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)結(jié)構(gòu)管理裝置、數(shù)據(jù)結(jié)構(gòu)管理系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)管理方法以及用于記錄數(shù)據(jù)結(jié)構(gòu)管理程序的計(jì)算機(jī)可讀介質(zhì)
- 電子墨水處理
- 一種數(shù)據(jù)結(jié)構(gòu)傳輸方法
- 一種基于元數(shù)據(jù)的任意版本兼容數(shù)據(jù)結(jié)構(gòu)存取方法及裝置
- 基于元模型的數(shù)據(jù)結(jié)構(gòu)建立方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)
- XML數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換方法和裝置
- 用于數(shù)據(jù)結(jié)構(gòu)的專用讀取電壓
- 一種實(shí)現(xiàn)無(wú)人機(jī)余度管理數(shù)據(jù)結(jié)構(gòu)的方法及裝置
- 數(shù)據(jù)展示方法及裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)結(jié)構(gòu)樹(shù)校驗(yàn)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





