[發明專利]基于Bert字模型的數據表分類方法、裝置及介質在審
| 申請號: | 202011347711.8 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112530597A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 谷興龍 | 申請(專利權)人: | 山東健康醫療大數據有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H10/60;G06F16/31;G06F16/35 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250117 山東省濟南市槐*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 字模 數據表 分類 方法 裝置 介質 | ||
1.基于Bert字模型的數據表分類方法,其特征在于包括:
對于元數據表中非中文的字段以及值域小于預設值的字段,基于預設的判別規則對字段進行內容類型判斷,得到字段類型,所述預設的判別規則為基于歷史元數據表中字段的內容配置的,用于基于字段的內容對字段進行類別判斷;
對于元數據表中值域等于或大于預設值的字段字段,通過Bert字模型對字段內容進行類別判斷,得到字段類型以及字段屬于各個類型的概率;
基于元數據表中字段內容的所屬類別,判斷元數據表的所屬類別。
2.根據權利要求1所述的基于Bert字模型的數據表分類方法,其特征在于所述判別規則包括但不限于正則表達式匹配和關鍵字匹配。
3.根據權利要求2所述的基于Bert字模型的數據表分類方法,其特征在于歷史元數據表中字段類型包括:
時間,所述時間在數據表中對應的Type為Date;
數值,所述數值在數據表中對應的Type為Number;
ICD編碼,所述ICD在數據表中對應的Type為String;
身份證號,所述身份證號在數據表中對應的Type為String;
婚姻狀態,所述婚姻狀態在數據表中對應的Type為String,對應的值域列表包括已婚、未婚、離異、喪偶、再婚以及復婚;
性別,所述性別在數據表中對應的Type為String,對應的值域列表包括男、女、男性和女性;
對于上述時間、數值、婚姻狀況以及性別,通過關鍵字匹配對字段進行內容類型判斷;
對于上述ICD編碼和身份證號,通過正則表達式匹配對字段進行內容類型判斷。
4.根據權利要求1所述的基于Bert字模型的數據表分類方法,其特征在于通過Bert字模型對字段內容進行類別判斷,包括如下步驟:
讀取每個字段的文本內容,將字段的文本內容作為輸入input;
基于Bert模型,將輸入input編碼轉換為Bert模型需要的編碼格式,并通標記符[CLS]和[SEP]來表示文本內容的開始和分隔;
根據輸入input得到對應的embedding,所述embedding為token級別、segment級別以及position級別三種級別的embedding的和;
以上述對應的embedding為輸入,通過訓練后的Bert模型進行學習以識別字段的內容類型,得到字段類型以及字段屬于各個類型的概率。
5.根據權利要求4所述的基于Bert字模型的數據表分類方法,其特征在于所述Bert模型為文本分類模型model_fn,并嵌入有自定義的DataProcessor,所述DataProcessor用于將數據轉換成Bert字模型可以處理的數據格式,并用于將數據劃分為訓練集、驗證集、測試集,同時為訓練集、驗證集中的數據生成標簽,便于Bert字模型進行訓練。
6.根據權利要求5所述的基于Bert字模型的數據表分類方法,其特征在于通過如下方法訓練Bert模型得到訓練后Bert模型:
將訓練數據集統一放在一個目錄下,所述目錄包括三個文件,分別為train.txt文件、eval.txt文件和predict.txt文件,上述每個文件中每行為一個樣本;
構建DataProcessor子類,并繼承三個get_examples方法和一個get_labels方法,所述三個get_examples方法分別為get_train_examples方法、get_dev_examples方法和get_test_examples方法,每個get_examples方法用于從數據集目錄中獲得對應的InputExample列表;
在main函數中,向main函數開頭的processors字典增加一項,key為數據集名稱,value為上述定義的DataProcessor的類名;
基于訓練數據集訓練所述Bert模型,調整參數,得到訓練后Bert模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東健康醫療大數據有限公司,未經山東健康醫療大數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011347711.8/1.html,轉載請聲明來源鉆瓜專利網。





