[發明專利]中文病歷的實體識別方法、裝置、設備及存儲介質有效
| 申請號: | 201910316061.1 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110162784B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 丁佳佳 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G16H10/60;G16H50/70 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 林彥之 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 病歷 實體 識別 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種中文病歷的實體識別方法,屬于然語言處理領域。該方法包括以下步驟:根本不同的對應規則輸出各種特征向量,包括與所述個人信息對應的第一特征向量、用于表征每個字在詞組中位置的第二特征向量、與所述每個字的偏旁對應的第三特征向量、對應每個字輸出相應的第四特征向量以及與所述每個字的拼音對應的第五特征向量;再根據拼接規則各個特征向量對應拼接在每個字的初始向量之后,以得到用于表征所述中文病歷的向量集;最后將用于表征所述中文病歷的向量集輸入訓練好的模型以抽取其中的實體。本發明通過識別出中文病歷中的實體信息轉換成特征向量,將中文病歷整體轉換成的向量集作為模型的輸入,以提高模型對實體抽取的準確率。
技術領域
本發明涉及自然語言處理領域,涉及一種中文病歷的實體識別方法、裝置、設備及存儲介質。
背景技術
目前對于命名實體識別在病例上的應用的需求很大,比如對病例的查詢、搜索、整理等。
現有基于深度學習的中文命名實體識別的效果很難提升,而且之前都是應用在其他語言上,比如英語。因為深度學習模型的限制和各個語言間語言特性的不同,這使命名實體任務在中文上的應用受到了限制。又因為通用領域、其他領域與醫療領域之間的差異,使其在醫療領域中病例的方向上的應用有所限制。
發明內容
本發明要解決的技術問題是為了克服現有技術中基于深度學習的中文命名實體識別準確率不高的問題,提出了一種中文病歷的實體識別方法、裝置、設備及存儲介質,通過對中文病例中的文本內容抽取相應的特征轉換成特征向量,然后將特征向量作為模型的輸入,以提高實體識別的準確率。
本發明是通過下述技術方案來解決上述技術問題:
一種中文病歷的實體識別方法,包括以下步驟:
識別出所述中文病歷中包含的個人信息,根據第一對應規則輸出與所述個人信息對應的第一特征向量,所述中文病歷中每個字對應相同的所述第一特征向量;
利用分詞工具對所述中文病歷進行分詞,以分詞后得到的詞組為單位,根據第二對應規則對應每個字輸出用于表征每個字在詞組中位置的第二特征向量;
識別出所述中文病歷中每個字的偏旁,根據第三對應規則對應每個字輸出與所述每個字的偏旁對應的第三特征向量;
對所述中文病歷做n-gram遍歷,將遍歷后得到各個詞組分別與預設的原始醫學詞典、前綴詞典和后綴詞典進行匹配,根據匹配結果與第四對應規則對應每個字輸出相應的第四特征向量;
利用中文拼音轉換工具將所述中文病歷中每個字轉換為拼音,根據第五對應規則對應每個字輸出與所述每個字的拼音對應的第五特征向量;
根據拼接規則將所述第一特征向量、所述第二特征向量、所述第三特征向量、所述第四特征向量和所述第五特征向量對應拼接在每個字的初始向量之后,以得到用于表征所述中文病歷的向量集;
將用于表征所述中文病歷的向量集輸入訓練好的模型以抽取其中的實體。
本發明還公開了一種中文病歷的實體識別裝置,包括:
第一特征向量生成模塊,用于識別出所述中文病歷中包含的個人信息,根據第一對應規則輸出與所述個人信息對應的第一特征向量,所述中文病歷中每個字對應相同的所述第一特征向量;
第二特征向量生成模塊,用于利用分詞工具對所述中文病歷進行分詞,以分詞后得到的詞組為單位,根據第二對應規則對應每個字輸出用于表征每個字在詞組中位置的第二特征向量;
第三特征向量生成模塊,用于識別出所述中文病歷中每個字的偏旁,根據第三對應規則對應每個字輸出與所述每個字的偏旁對應的第三特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910316061.1/2.html,轉載請聲明來源鉆瓜專利網。





