[發明專利]數據表處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201811090036.8 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN109299094A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 柳明輝;徐國強;黃北辰;楊鐳;付曉 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2457;G06F16/2458 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 王寧 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 數據表處理 檢索 表結構信息 計算機設備 存儲介質 維度 數據分析技術 結構信息 用戶上傳 輸出表 申請 解析 存儲 | ||
1.一種數據表處理方法,所述方法包括:
獲取用戶上傳的數據表;
對所述數據表進行解析,得到所述數據表的表結構信息;
通過已訓練的標注模型對所述表結構信息進行識別,輸出所述數據表中各個字段名的標注結果;所述標注結果包括僅為檢索范圍、僅為檢索維度以及既為檢索范圍又為檢索維度中的一種;
將所述標注結果與所述數據表對應存儲。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取用戶輸入的檢索詞條;
識別所述檢索詞條對應的檢索范圍和檢索維度;
獲取數據源庫中各數據表對應的標注結果;
根據所述標注結果,從所述數據源庫中篩選出與所述檢索范圍和所述檢索維度匹配的報表數據。
3.根據權利要求2所述的方法,其特征在于,所述根據所述標注結果,從所述數據源庫中篩選出與所述檢索范圍和所述檢索維度匹配的報表數據包括:
將所述檢索范圍與所述標注結果中可作為檢索范圍的字段名進行匹配;
將所述檢索維度與所述標注結果中可作為檢索維度的字段名進行匹配;
按照匹配的字段名,從所述數據庫源中篩選出報表數據。
4.根據權利要求1所述的方法,其特征在于,所述表結構信息包括字段名和字段值類型;所述對所述數據表進行解析,得到所述數據表的表結構信息包括:
提取所述數據表的表頭所包括的字段名;
統計各所述字段名對應的枚舉值;
將各所述字段名對應的字段值的字符類型作為所述字段名的字段值類型;
根據所述字段名以及相應的枚舉值、字段值類型確定所述數據表的表結構信息。
5.根據權利要求1所述的方法,其特征在于,所述通過已訓練的標注模型對所述表結構信息進行識別,輸出所述數據表中各個字段名的標注結果包括:
獲取用戶選定的業務場景類別;
將所述表結構信息輸入至已訓練的與所述業務場景類別對應的標注模型中,通過所述標注模型根據所述表結構信息得到所述數據表中各字段名對應的特征向量;
對各所述字段名對應的特征向量進行變換,輸出所述數據表中各個字段名對應的標注結果。
6.根據權利要求1所述的方法,其特征在于,所述標注模型的訓練步驟包括:
獲取訓練樣本語料和測試樣本語料;
獲取所述訓練樣本語料中各個訓練樣本、所述測試樣本語料中各個測試樣本對應的標注結果;
循環執行將標注好的當前訓練樣本輸入至機器學習模型中,輸出當前訓練樣本對應的預測結果,將當前訓練樣本輸出的預測結果與相應的標注結果進行比較,在差異不符合預設條件時,調整所述機器學習模型的模型參數,在差異符合預設條件時,接受前次調整的模型參數的步驟,直至所述訓練樣本語料訓練完畢;
將所述測試樣本語料中的各個測試樣本輸入至訓練完畢的機器學習模型中,輸出各個測試樣本對應的預測結果;
基于各個測試樣本對應的預測結果與相應的標注結果之間的差異,統計所述機器學習模型的準確率;
當統計的所述準確率符合訓練停止條件時,得到訓練好的標注模型。
7.根據權利要求1至6任一項所述的方法,其特征在于,所述方法還包括:
展示各個字段名及相應的標注結果;
獲取用戶從展示的所述字段名中選取輸入的至少兩個字段名;
獲取用戶輸入的與所述至少兩個字段名相關聯的中間字段名;
將所述中間字段名與所述數據表對應存儲;所述中間字段名的標注結果與所述選取輸入的至少兩個字段名相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811090036.8/1.html,轉載請聲明來源鉆瓜專利網。





