[發(fā)明專利]文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)有效
| 申請?zhí)枺?/td> | 201811330288.3 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109493977B | 公開(公告)日: | 2020-07-31 |
| 發(fā)明(設(shè)計(jì))人: | 焦增濤 | 申請(專利權(quán))人: | 天津新開心生活科技有限公司;天津開心生活科技有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F40/295;G06F40/289 |
| 代理公司: | 北京律智知識產(chǎn)權(quán)代理有限公司 11438 | 代理人: | 袁禮君;闞梓瑄 |
| 地址: | 300467 天津市濱海新區(qū)天津生態(tài)城國*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 數(shù)據(jù)處理 方法 裝置 電子設(shè)備 計(jì)算機(jī) 可讀 介質(zhì) | ||
本公開涉及一種醫(yī)學(xué)文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)。涉及計(jì)算機(jī)信息處理領(lǐng)域,該方法包括:將醫(yī)學(xué)文本中的文字進(jìn)行分詞處理,生成詞向量;將所述醫(yī)學(xué)文本中的文字的詞性通過詞性向量標(biāo)注;將所述詞向量和所述詞性向量輸入雙向深度學(xué)習(xí)模型中,以獲取第一結(jié)果;以及將所述第一結(jié)果與規(guī)則模板輸入深度學(xué)習(xí)模型中,以提取所述醫(yī)學(xué)文本中的實(shí)體詞。本公開涉及的醫(yī)學(xué)文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì),能夠快速準(zhǔn)確的由臨床病例長文本中識別出醫(yī)學(xué)術(shù)語。
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)信息處理領(lǐng)域,具體而言,涉及一種醫(yī)學(xué)文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù)
臨床病例中許多信息是以長文本的形式記錄,不利于后續(xù)的各種統(tǒng)計(jì)分析任務(wù)。從臨床病例長文本中識別其中有價值的醫(yī)學(xué)術(shù)語,是臨床病例分析的一項(xiàng)重要任務(wù)。
現(xiàn)有技術(shù)的技術(shù)中,可通過如下方式識別醫(yī)學(xué)病例中的醫(yī)學(xué)術(shù)語:
1、通過使用預(yù)定義詞表,進(jìn)行字符匹配的方式從長文本中召回醫(yī)學(xué)實(shí)體。這種方法依賴于人工定制詞表,費(fèi)時費(fèi)力,且無法保證詞表的覆蓋;而且直接字符匹配的方法,會引入各種歧義,如在有些上下位場景下“鼻出血”是診斷,某些場景下是“癥狀”。
2、通過上下文規(guī)則,滿足某種特定模式,使用模板召回醫(yī)學(xué)術(shù)語實(shí)體。這種方法的效果依賴于模板的定制,手工難度高,且文本覆蓋無法保證。
3、使用序列標(biāo)注統(tǒng)計(jì)模型,預(yù)先標(biāo)注一批包含實(shí)體信息的語料。這種方法統(tǒng)計(jì)模型主要使用字面特征,表達(dá)能力有限,要達(dá)到目標(biāo)效果,需要的語料規(guī)模較大;而且醫(yī)學(xué)術(shù)語是知識積累比較豐富的領(lǐng)域,這類方法無法充分利用領(lǐng)域知識。
因此,需要一種新的醫(yī)學(xué)文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)。
在所述背景技術(shù)部分公開的上述信息僅用于加強(qiáng)對本公開的背景的理解,因此它可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
有鑒于此,本公開提供一種醫(yī)學(xué)文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì),能夠快速準(zhǔn)確的由臨床病例長文本中識別出醫(yī)學(xué)術(shù)語。
本公開的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本公開的實(shí)踐而習(xí)得。
根據(jù)本公開的一方面,提出一種醫(yī)學(xué)文本數(shù)據(jù)處理方法,該方法包括:將醫(yī)學(xué)文本中的文字進(jìn)行分詞處理,生成詞向量;將所述醫(yī)學(xué)文本中的文字的詞性通過詞性向量標(biāo)注;將所述詞向量和所述詞性向量輸入雙向深度學(xué)習(xí)模型中,以獲取第一結(jié)果;以及將所述第一結(jié)果與規(guī)則模板輸入深度學(xué)習(xí)模型中,以提取所述醫(yī)學(xué)文本中的實(shí)體詞。
在本公開的一種示例性實(shí)施例中,還包括:基于臨床電子病歷通過數(shù)據(jù)挖掘方式確定規(guī)則模板。
在本公開的一種示例性實(shí)施例中,基于臨床電子病歷通過數(shù)據(jù)挖掘方式確定規(guī)則模板包括:通過臨床電子病歷通過頻繁項(xiàng)挖掘生成第一模板;將所述第一模板進(jìn)行去重處理;計(jì)算去重處理后的第一模板的先驗(yàn)分布,以根據(jù)所述先驗(yàn)分布確定規(guī)則模板。
在本公開的一種示例性實(shí)施例中,將醫(yī)學(xué)文本中的文字進(jìn)行分詞處理,生成詞向量包括:醫(yī)學(xué)文本中的文字進(jìn)行分詞處理,生成多個分詞詞匯;以及將每個分詞詞匯用Word2vec向量進(jìn)行表示,生成詞向量。
在本公開的一種示例性實(shí)施例中,將所述詞向量和所述詞性向量輸入雙向深度學(xué)習(xí)模型中,以獲取第一結(jié)果包括:將所述詞向量和所述詞性向量進(jìn)行拼接及標(biāo)準(zhǔn)化處理,生成第一輸入向量;以及將所述第一輸入向量輸入到雙向深度學(xué)習(xí)模型中,以獲取第一結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津新開心生活科技有限公司;天津開心生活科技有限公司,未經(jīng)天津新開心生活科技有限公司;天津開心生活科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811330288.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





