[發(fā)明專利]病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110223444.1 | 申請(qǐng)日: | 2021-03-01 |
| 公開(公告)號(hào): | CN112949303A | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計(jì))人: | 鐘信真;左霖 | 申請(qǐng)(專利權(quán))人: | 山東健康醫(yī)療大數(shù)據(jù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/216;G06F40/242;G16H10/60 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250117 山東省濟(jì)南市槐*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 病歷 文本 數(shù)據(jù)結(jié)構(gòu) 分詞 解析 方法 系統(tǒng) | ||
1.病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法,其特征在于包括如下步驟:
基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù),所述醫(yī)學(xué)詞庫(kù)包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性,所述詞性包括詞語(yǔ)傳統(tǒng)詞性和詞語(yǔ)醫(yī)學(xué)詞性;
基于詞庫(kù)詞典生成待分詞醫(yī)療文本數(shù)據(jù)的所有成詞,并基于上述所有成詞構(gòu)建有向無(wú)環(huán)圖;
基于上述醫(yī)學(xué)詞庫(kù)和有向無(wú)環(huán)圖,通過(guò)動(dòng)態(tài)規(guī)劃查找最大歸零路徑查找語(yǔ)句詞頻的最大切分組合,得到帶有前后文順序和詞性的詞語(yǔ)集合;
基于詞語(yǔ)所處位置、詞語(yǔ)原本詞性以及詞語(yǔ)醫(yī)學(xué)詞性三個(gè)維度構(gòu)建三元結(jié)構(gòu)數(shù)據(jù)以及三元結(jié)構(gòu)數(shù)據(jù)之間的映射關(guān)系組成三元關(guān)系模型,并通過(guò)上述三元關(guān)系模型對(duì)上述詞語(yǔ)集合進(jìn)行解析,得到三元映射關(guān)系數(shù)據(jù)組;
對(duì)上述三元映射關(guān)系數(shù)據(jù)組進(jìn)行標(biāo)準(zhǔn)化處理,得二元映射關(guān)系數(shù)據(jù)組,所述二元映射關(guān)系數(shù)據(jù)組匹配標(biāo)準(zhǔn)醫(yī)療詞典。
2.根據(jù)權(quán)利要求1所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法,其特征在于所述詞語(yǔ)傳統(tǒng)詞性包括名詞、動(dòng)詞、副詞和標(biāo)點(diǎn);
所述詞語(yǔ)醫(yī)學(xué)詞性包括診斷、疾病、藥品、化療方案、放療方案以及稱謂。
3.根據(jù)權(quán)利要求1或2所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法,其特征在于基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù),包括如下步驟:
獲取醫(yī)療文本數(shù)據(jù),通過(guò)詞庫(kù)對(duì)醫(yī)療文本數(shù)據(jù)進(jìn)行分詞,得到分詞結(jié)果數(shù)據(jù)集;
通過(guò)TF-IDF算法模型對(duì)分詞結(jié)果數(shù)據(jù)集進(jìn)行關(guān)鍵醫(yī)學(xué)詞匯抽詞,得到抽詞結(jié)果數(shù)據(jù)集;
添加醫(yī)學(xué)詞匯相關(guān)的權(quán)重和詞性,得到包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性的醫(yī)學(xué)詞庫(kù)。
4.根據(jù)權(quán)利要求3所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法,其特征在于對(duì)抽詞結(jié)果數(shù)據(jù)集中連續(xù)多個(gè)單字進(jìn)行醫(yī)學(xué)詞匯組合拼接后,添加醫(yī)學(xué)詞匯相關(guān)的權(quán)重和詞性,得到包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性的醫(yī)學(xué)詞庫(kù)。
5.根據(jù)權(quán)利要求3所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法,其特征在于對(duì)于醫(yī)學(xué)詞庫(kù)中未登錄的醫(yī)療文本數(shù)據(jù),通過(guò)基于漢字成詞的HMM模型進(jìn)行分詞。
6.病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析系統(tǒng),其特征在于通過(guò)如權(quán)利要求1-5任一項(xiàng)所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析方法對(duì)病歷文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的分詞和解析,所述系統(tǒng)包括:
醫(yī)學(xué)詞庫(kù)構(gòu)建模塊,所述醫(yī)學(xué)詞庫(kù)構(gòu)建模塊用于基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù),所述醫(yī)學(xué)詞庫(kù)包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性,所述詞性包括詞語(yǔ)傳統(tǒng)詞性和詞語(yǔ)醫(yī)學(xué)詞性;
分詞模型構(gòu)建模塊,所述分詞模型構(gòu)建模塊用于基于詞庫(kù)詞典生成待分詞醫(yī)療文本數(shù)據(jù)的所有成詞,并基于上述所有成詞構(gòu)建有向無(wú)環(huán)圖;
分詞模塊,所述分詞模塊用于基于上述醫(yī)學(xué)詞庫(kù)和有向無(wú)環(huán)圖,通過(guò)動(dòng)態(tài)規(guī)劃查找最大歸零路徑查找語(yǔ)句詞頻的最大切分組合,得到帶有前后文順序和詞性的詞語(yǔ)集合;
三元解析模塊,所述三元解析模塊用于基于詞語(yǔ)所處位置、詞語(yǔ)原本詞性以及詞語(yǔ)醫(yī)學(xué)詞性三個(gè)維度構(gòu)建三元結(jié)構(gòu)數(shù)據(jù)以及三元結(jié)構(gòu)數(shù)據(jù)之間的映射關(guān)系組成三元關(guān)系模型,并通過(guò)上述三元關(guān)系模型對(duì)上述詞語(yǔ)集合進(jìn)行解析,得到三元映射關(guān)系數(shù)據(jù)組;
標(biāo)準(zhǔn)化模塊,所述標(biāo)準(zhǔn)化模塊用于對(duì)上述三元映射關(guān)系數(shù)據(jù)組進(jìn)行標(biāo)準(zhǔn)化處理,得二元映射關(guān)系數(shù)據(jù)組,所述二元映射關(guān)系數(shù)據(jù)組匹配標(biāo)準(zhǔn)醫(yī)療詞典。
7.根據(jù)權(quán)利要求6所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析系統(tǒng),其特征在于所述詞語(yǔ)傳統(tǒng)詞性包括名詞、動(dòng)詞、副詞和標(biāo)點(diǎn);
所述詞語(yǔ)醫(yī)學(xué)詞性包括診斷、疾病、藥品、化療方案、放療方案以及稱謂。
8.根據(jù)權(quán)利要求7所述的病歷文本數(shù)據(jù)結(jié)構(gòu)化的文本分詞解析系統(tǒng),其特征在于醫(yī)學(xué)詞庫(kù)構(gòu)建模塊用于通過(guò)如下步驟基于醫(yī)療文本數(shù)據(jù)構(gòu)建醫(yī)學(xué)詞庫(kù):
獲取醫(yī)療文本數(shù)據(jù),通過(guò)詞庫(kù)對(duì)醫(yī)療文本數(shù)據(jù)進(jìn)行分詞,得到分詞結(jié)果數(shù)據(jù)集;
通過(guò)TF-IDF算法模型對(duì)分詞結(jié)果數(shù)據(jù)集進(jìn)行關(guān)鍵醫(yī)學(xué)詞匯抽詞,得到抽詞結(jié)果數(shù)據(jù)集;
對(duì)抽詞結(jié)果數(shù)據(jù)集中連續(xù)多個(gè)單字進(jìn)行醫(yī)學(xué)詞匯組合拼接;
添加醫(yī)學(xué)詞匯相關(guān)的權(quán)重和詞性,得到包括醫(yī)學(xué)詞語(yǔ)、權(quán)重和詞性的醫(yī)學(xué)詞庫(kù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東健康醫(yī)療大數(shù)據(jù)有限公司,未經(jīng)山東健康醫(yī)療大數(shù)據(jù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110223444.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于網(wǎng)絡(luò)的病歷資料存儲(chǔ)流轉(zhuǎn)方法及系統(tǒng)
- 一種高效查找病歷夾的病歷夾和病歷車系統(tǒng)
- 電子病歷的質(zhì)檢方法、相似病歷的提醒方法及裝置
- 電子病歷的生成方法及裝置
- 用于輸出病歷的方法和裝置
- 相似病歷查找方法及系統(tǒng)
- 一種生成診前病歷的方法及裝置
- 一種基于標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的電子病歷模板配置系統(tǒng)
- 基于動(dòng)態(tài)病情的病歷分組方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于科室流程化工作的全生命周期結(jié)構(gòu)化電子病歷系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)結(jié)構(gòu)管理裝置、數(shù)據(jù)結(jié)構(gòu)管理系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)管理方法以及用于記錄數(shù)據(jù)結(jié)構(gòu)管理程序的計(jì)算機(jī)可讀介質(zhì)
- 電子墨水處理
- 一種數(shù)據(jù)結(jié)構(gòu)傳輸方法
- 一種基于元數(shù)據(jù)的任意版本兼容數(shù)據(jù)結(jié)構(gòu)存取方法及裝置
- 基于元模型的數(shù)據(jù)結(jié)構(gòu)建立方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)
- XML數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換方法和裝置
- 用于數(shù)據(jù)結(jié)構(gòu)的專用讀取電壓
- 一種實(shí)現(xiàn)無(wú)人機(jī)余度管理數(shù)據(jù)結(jié)構(gòu)的方法及裝置
- 數(shù)據(jù)展示方法及裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)結(jié)構(gòu)樹校驗(yàn)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





