[發明專利]中文病歷的實體識別方法、裝置、設備及存儲介質有效
| 申請號: | 201910316061.1 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110162784B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 丁佳佳 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G16H10/60;G16H50/70 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 林彥之 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 病歷 實體 識別 方法 裝置 設備 存儲 介質 | ||
1.一種中文病歷的實體識別方法,其特征在于,包括以下步驟:
識別出所述中文病歷中包含的個人信息,根據第一對應規則輸出與所述個人信息對應的第一特征向量,所述中文病歷中每個字對應相同的所述第一特征向量;
利用分詞工具對所述中文病歷進行分詞,以分詞后得到的詞組為單位,根據第二對應規則對應每個字輸出用于表征每個字在詞組中位置的第二特征向量;
識別出所述中文病歷中每個字的偏旁,根據第三對應規則對應每個字輸出與所述每個字的偏旁對應的第三特征向量;
對所述中文病歷做n-gram遍歷,將遍歷后得到各個詞組分別與預設的原始醫學詞典、前綴詞典和后綴詞典進行匹配,根據匹配結果與第四對應規則對應每個字輸出相應的第四特征向量;
利用中文拼音轉換工具將所述中文病歷中每個字轉換為拼音,根據第五對應規則對應每個字輸出與所述每個字的拼音對應的第五特征向量;
根據拼接規則將所述第一特征向量、所述第二特征向量、所述第三特征向量、所述第四特征向量和所述第五特征向量對應拼接在每個字的初始向量之后,以得到用于表征所述中文病歷的向量集;
將用于表征所述中文病歷的向量集輸入訓練好的模型以抽取其中的實體。
2.根據權利要求1所述的中文病歷的實體識別方法,其特征在于,所述識別出所述中文病歷中包含的個人信息包括以下步驟:
創建用于匹配個人信息的正則表達式;
用所述正則表達式與所述病人基本信息進行匹配,以識別出所述病人基本信息中包含的個人信息;
所述第一對應規則包括病人類型與特征向量的對應規則和病人年齡與特征向量的對應規則;
所述病人類型與特征向量的對應規則包括:
特征向量的長度等于所述病人類型的種類數量;
所述特征向量中每一維度對應所述病人類型中的一個種類;
所述特征向量通過所述病人類型對應維度的向量值的改變表征對應的所述病人類型;
或者,
特征向量的長度為1;
所述特征向量通過不同的向量值對應表征不同所述病人類型;
所述病人年齡與特征向量的對應規則包括:
特征向量的長度為1;
所述特征向量通過不同的向量值對應表征不同所述病人年齡,所述向量值等于所述病人年齡。
3.根據權利要求1所述的中文病歷的實體識別方法,其特征在于,所述第二對應規則包括:
特征向量的長度為4;
所述特征向量的前三個維度用于表征包含兩個字以上詞組,其中第一個維度的向量值的改變用于表征位于所述詞組中首位的字,第二個維度的向量值的改變用于表征位于所述詞組中中間的字,第三個維度的向量值的改變用于表征位于所述詞組中末尾的字;
所述特征向量的第四個維度用于表征單字詞組,所述第四個維度的向量值的改變用于表征單字詞組中的字。
4.根據權利要求1所述的中文病歷的實體識別方法,其特征在于,所述識別出所述中文病歷中每個字的偏旁具體包括以下步驟:
將所述中文病歷中的每個字與預設的偏旁字典進行匹配,輸出匹配到的偏旁,所述偏旁字典包含所有中文字與對應偏旁的關聯關系;
所述第三對應規則包括:
特征向量的長度等于預設的實體偏旁的數量;
所述特征向量中每一維度對應一個所述實體偏旁;
所述特征向量通過所述實體偏旁對應維度的向量值的改變表征對應的包含所述實體偏旁的字;
或者,
特征向量的長度為1;
所述特征向量通過不同的向量值對應表征包含不同所述實體偏旁的字。
5.根據權利要求1所述的中文病歷的實體識別方法,其特征在于,所述前綴詞典的構建包括以下步驟:
識別出所述原始醫學詞典中多于兩個字的詞組;
將識別出的所述詞組的前i個字存入前綴詞典,i為小于該詞組長度且大于該詞組長度的一半的自然數,其中該詞組長度的一半取整數;
所述后綴詞典的構建包括以下步驟:
識別出所述原始醫學詞典中多于兩個字的詞組;
將識別出的所述詞組的后i個字存入后綴詞典,i為小于該詞組長度且大于等于該詞組長度的一半的自然數,其中該詞組長度的一半取整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910316061.1/1.html,轉載請聲明來源鉆瓜專利網。





