[發明專利]基于Bert字模型的數據表分類方法、裝置及介質在審
| 申請號: | 202011347711.8 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112530597A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 谷興龍 | 申請(專利權)人: | 山東健康醫療大數據有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H10/60;G06F16/31;G06F16/35 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250117 山東省濟南市槐*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 字模 數據表 分類 方法 裝置 介質 | ||
本發明公開了基于Bert字模型的數據表分類方法、裝置及介質,屬于文本信息挖掘技術領域,要解決的技術問題為如何高效的對醫療系統中元數據表進行準確歸類。方法包括:對于元數據表中非中文的字段以及值域小于預設值的字段,基于預設的判別規則對字段進行內容類型判斷,得到字段類型,所述預設的判別規則為基于歷史元數據表中字段的內容配置的,用于基于字段的內容對字段進行類別判斷;對于元數據表中值域等于或大于預設值的字段字段,通過Bert字模型對字段內容進行類別判斷,得到字段類型以及字段屬于各個類型的概率;基于元數據表中字段內容的所屬類別,判斷元數據表的所屬類別。
技術領域
本發明涉及文本信息挖掘技術領域,具體地說是基于Bert字模型的數據表分類方法、裝置及介質。
背景技術
醫療信息化的不斷發展產生了大量的醫療數據,而這些海量的醫療數據在醫院醫療信息系統里存于不同的表中,而且各醫院使用的信息系統并不全部相同,這就導致業務系統后臺存儲的元數據差別比較大。在充分利用這些醫療數據之前,首先需要對數據進行治理,那么將醫療系統中存儲的元數據表進行歸類則是必不可少的一步。
目前,將系統中元數據表進行歸類基本上是依賴于人的主觀經驗。首先,數據治理人員會根據元數據表的表名,對元數據表進行粗略的判斷,如基本信息表可能會包含“info”這樣的關鍵字,診斷表可能會包含“diag”這樣的關鍵字;接著,映射人員會根據字段內容和字段名對字段內容進行判別,如果某字段下內容為“男”、“女”,那么該字段極大可能屬于性別字段,如果某字段名稱為“units”,那么該字段屬于“單位”字段。
隨著醫院數量以及信息系統的增多,元數據表的數量也會不斷的增加,僅憑人工對元數據表進行歸類匯聚,將會消耗大量的人力,效率會比較低。
如何高效的對醫療系統中元數據表進行準確歸類,是需要解決的技術問題。
發明內容
本發明的技術任務是針對以上不足,提供基于Bert字模型的數據表分類方法、裝置及介質,來解決如何高效的對醫療系統中元數據表進行準確歸類的問題。
第一方面,本發明提供一種基于Bert字模型的數據表分類方法,包括:
對于元數據表中非中文的字段以及值域小于預設值的字段,基于預設的判別規則對字段進行內容類型判斷,得到字段類型,所述預設的判別規則為基于歷史元數據表中字段的內容配置的,用于基于字段的內容對字段進行類別判斷;
對于元數據表中值域等于或大于預設值的字段字段,通過Bert字模型對字段內容進行類別判斷,得到字段類型以及字段屬于各個類型的概率;
基于元數據表中字段內容的所屬類別,判斷元數據表的所屬類別。
作為優選,所述判別規則包括但不限于正則表達式匹配和關鍵字匹配。
作為優選,歷史元數據表中字段類型包括:
時間,所述時間在數據表中對應的Type為Date;
數值,所述數值在數據表中對應的Type為Number;
ICD編碼,所述ICD在數據表中對應的Type為String;
身份證號,所述身份證號在數據表中對應的Type為String;
婚姻狀態,所述婚姻狀態在數據表中對應的Type為String,對應的值域列表包括已婚、未婚、離異、喪偶、再婚以及復婚;
性別,所述性別在數據表中對應的Type為String,對應的值域列表包括男、女、男性和女性;
對于上述時間、數值、婚姻狀況以及性別,通過關鍵字匹配對字段進行內容類型判斷;
對于上述ICD編碼和身份證號,通過正則表達式匹配對字段進行內容類型判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東健康醫療大數據有限公司,未經山東健康醫療大數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011347711.8/2.html,轉載請聲明來源鉆瓜專利網。





