[發明專利]一種數據表處理方法及裝置有效
| 申請號: | 201910184764.3 | 申請日: | 2019-03-12 |
| 公開(公告)號: | CN111694891B | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 楊帆;王能;馮仕炳 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/2455 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 404100 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據表 處理 方法 裝置 | ||
本發明提供一種數據表處理方法及裝置,該方法包括:根據收集的N條關聯查詢語句,統計M個數據表組合中每個數據表組合的第一關聯次數;其中,N和M均為正整數,所述數據表組合包括至少兩個數據表,所述第一關聯次數為所述數據表組合中至少兩個數據表被關聯查詢的次數;根據所述M個數據表組合中每個數據表組合的第一關聯次數,確定第一候選數據表組合,其中,所述第一候選數據表組合用于生成第一寬表。通過本發明提供的數據表處理方法,可以提高所選取的用于生成寬表的數據表的準確性,進而可以避免生成較多冗余的寬表,并提高所生成的寬表對關聯查詢的覆蓋度。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種數據表處理方法及裝置。
背景技術
在數據處理(例如,數據挖掘)過程中,為了提高計算效率和查詢方便,會將符合三范式設計的數據表通過冗余的方式做關聯,轉化為寬表,再基于寬表進行計算、查詢等處理。
目前,通常是人工根據經驗選擇將哪些表、哪些字段關聯做成寬表。然而,由于數據表數量通常較多,且業務關系較為復雜,人工憑經驗選表,容易導致生成較多冗余的寬表,浪費存儲空間,或是生成的寬表對關聯查詢覆蓋度較差。
可見,現有技術中存在選取用于生成寬表的數據表的準確性較差的問題。
發明內容
本發明實施例提供一種數據表處理方法及裝置,以解決選取用于生成寬表的數據表的準確性較差的問題。
為了解決上述技術問題,本發明是這樣實現的:
第一方面,本發明實施例提供了一種數據表處理方法。該方法包括:
根據收集的N條關聯查詢語句,統計M個數據表組合中每個數據表組合的第一關聯次數;其中,N和M均為正整數,所述數據表組合包括至少兩個數據表,所述第一關聯次數為所述數據表組合中至少兩個數據表被關聯查詢的次數;
根據所述M個數據表組合中每個數據表組合的第一關聯次數,確定第一候選數據表組合,其中,所述第一候選數據表組合用于生成第一寬表。
第二方面,本發明實施例還提供一種數據表處理裝置。該數據表處理裝置包括:
統計模塊,用于根據收集的N條關聯查詢語句,統計M個數據表組合中每個數據表組合的第一關聯次數;其中,N和M均為正整數,所述數據表組合包括至少兩個數據表,所述第一關聯次數為所述數據表組合中至少兩個數據表被關聯查詢的次數;
第一確定模塊,用于根據所述M個數據表組合中每個數據表組合的第一關聯次數,確定第一候選數據表組合,其中,所述第一候選數據表組合用于生成第一寬表。
第三方面,本發明實施例還提供一種數據表處理裝置,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執行時實現上述的數據表處理方法的步驟。
第四方面,本發明實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現上述的數據表處理方法的步驟。
本發明實施例中,根據收集的N條關聯查詢語句,統計M個數據表組合中每個數據表組合的第一關聯次數;其中,N和M均為正整數,所述數據表組合包括至少兩個數據表,所述第一關聯次數為所述數據表組合中至少兩個數據表被關聯查詢的次數;根據所述M個數據表組合中每個數據表組合的第一關聯次數,確定第一候選數據表組合,其中,所述第一候選數據表組合用于生成第一寬表。由于基于每個數據表組合的關聯查詢次數中選取用于生成寬表的數據表,可以提高所選取的用于生成寬表的數據表的準確性,進而可以避免生成較多冗余的寬表,并提高所生成的寬表對關聯查詢的覆蓋度。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910184764.3/2.html,轉載請聲明來源鉆瓜專利網。





