[發明專利]數據分析中的查詢處理有效
| 申請號: | 201610968389.8 | 申請日: | 2016-10-26 |
| 公開(公告)號: | CN107992503B | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 林慶維;樓建光 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/28 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 分析 中的 查詢 處理 | ||
1.一種計算機實施的方法,包括:
接收包含多個查詢項的查詢,所述多個查詢項與數據條目的多個目標維度相關;
確定所述多個目標維度是否需多個數據子集中的至少兩個數據子集覆蓋,所述多個數據子集中的至少一個數據子集包括與所述多個目標維度中的至少一個目標維度對應的數據條目;
響應于所述多個目標維度需所述多個數據子集中的至少兩個數據子集覆蓋,將所述查詢分解為多個子查詢,每個子查詢具有所述多個查詢項中的至少一個查詢項;以及
通過分析所述多個數據子集中與每個子查詢的所述至少一個查詢項相關的目標維度的數據條目,來確定針對所述查詢的查詢結果,
其中所述方法進一步包括:
基于對源數據集的源維度的組合的預定覆蓋率,從所述源數據集創建多個候選數據子集,每個候選數據子集覆蓋所述源維度中的至少兩個源維度;
將所述多個候選數據子集中的至少兩個候選數據子集合并為一個候選數據子集,使得合并后的候選數據子集覆蓋所述至少兩個候選數據子集的源維度;
標識所述多個候選數據子集中其源維度由合并后的候選數據子集覆蓋的候選數據子集;以及
基于除所標識的候選數據子集之外的其余候選數據子集確定所述多個數據子集。
2.根據權利要求1所述的方法,其中將所述查詢分解為多個子查詢包括:
確定所述多個查詢項中的每個查詢項對之間的相關度;
基于所述相關度和每個數據子集對應的目標維度,確定所述多個目標維度的關聯性;以及
基于確定的關聯性將所述查詢分解為所述多個子查詢,使得具有多個查詢項的子查詢對應的目標維度被確定具有關聯性。
3.根據權利要求2所述的方法,其中確定每個查詢項對之間的相關度包括:
基于所述多個查詢項在對應的目標維度中存在的概率值,確定每個查詢項對之間的互信息。
4.根據權利要求2所述的方法,其中確定所述多個目標維度的關聯性包括通過以下至少一項確定所述多個目標維度中的兩個目標維度具有關聯性:
與所述兩個目標維度有關的查詢項對之間的相關度大于相關度閾值;
所述兩個目標維度由所述多個數據子集中的第一數據子集覆蓋;以及
所述兩個目標維度以及與所述兩個目標維度中的一個目標維度具有關聯性的另一目標維度由所述多個數據子集中的第二數據子集覆蓋。
5.根據權利要求1所述的方法,進一步包括通過以下選擇所述至少兩個候選數據子集:
確定所述多個候選數據子集中的每個候選數據子集的數據量;以及
從所述多個候選數據子集中選擇數據量小于數據量閾值的所述至少兩個候選數據子集。
6.根據權利要求5所述的方法,其中確定每個候選數據子集的數據量包括:
從給定候選數據子集包括的數據條目中采樣多個數據條目;
確定采樣到的所述多個數據條目中不同數據條目的第一數目和出現次數小于計數閾值的數據條目的第二數目;
基于所述第一數目和所述第二數目,確定所述給定候選數據子集包括的不同數據條目的數目;以及
基于所述不同數據條目的數目確定所述給定候選數據子集的數據量。
7.根據權利要求1所述的方法,其中基于其余候選數據子集確定所述多個數據子集包括:
確定其余候選數據子集的總數據量是否超過可用于存儲所述多個數據子集的存儲空間;以及
響應于所述總數據量小于或等于所述存儲空間,將所述其余候選數據子集確定為所述多個數據子集。
8.根據權利要求1所述的方法,其中所述多個數據子集被存儲在可快速訪問的存儲設備中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610968389.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:廣告檢索控制方法及裝置
- 下一篇:一種文件處理方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





