[發明專利]表的增量聚類維護在審
| 申請號: | 201780067721.6 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN110100242A | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 蒂埃里·克呂安斯;馬爾辛·祖科夫斯基;本諾特·戴奇維勒;嚴佳琪 | 申請(專利權)人: | 斯諾弗雷克公司 |
| 主分類號: | G06F16/245 | 分類號: | G06F16/245;G06F16/22 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 周靖;楊明釗 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 分區 表數據 用戶命令 增量步驟 迭代 顯式 近似 存儲 響應 創建 改進 維護 | ||
1.一種計算機數據庫實現的方法,所述方法包括:
將表的表數據存儲在多個分區中,其中每個分區包括所述表的表數據的一部分,并且其中基于所述表中的一個或更多個屬性至少部分地聚類所述分區;
基于對所述表的改變創建一個或更多個新分區,其中所述一個或更多個新分區中的至少一個新分區彼此重疊或與先前的分區重疊,導致所述表的聚類程度降低;
確定所述表數據的聚類程度低于聚類閾值;以及
響應于以下項中的一項更或多項和/或作為DML命令的一部分重新聚類所述表的一個或更多個分區以提高所述表的聚類程度:確定所述聚類程度已經下降到所述聚類閾值以下;來自用戶的顯式用戶命令。
2.根據權利要求1所述的方法,還包括基于以下項中的一項或更多項來確定所述聚類程度:
有多少個分區與所述表的其它分區重疊;
一個或更多個分區與所述表的其它分區重疊的程度;
針對一個或更多個屬性值確定有多少個分區重疊;
所述表分區的每個單獨深度或所述表分區的深度分布;或者
確定所述表分區的平均深度,其中該深度包括針對所述一個或更多個屬性的特定屬性值重疊的分區的數量。
3.根據權利要求1所述的方法,其中,確定所述表數據未被充分聚類還包括確定:所述表上的DML語句的量、頻率或類型;或被添加到所述表中的新數據的量。
4.根據權利要求1所述的方法,其中,確定所述表數據未被充分聚類包括確定示例查詢的執行時間超過閾值查詢執行長度。
5.根據權利要求1所述的方法,其中,確定所述表數據未被充分聚類包括基于編譯期間的修剪效果和執行期間的過濾選擇性來確定。
6.根據權利要求1所述的方法,其中,重新聚類包括選擇兩個或更多個分區作為合并候選項。
7.根據權利要求6所述的方法,其中,選擇所述兩個或更多個分區作為所述合并候選項包括基于以下項中的一項或更多項進行選擇:
所述兩個或更多個分區包含所述一個或更多個屬性的重疊值;
所述兩個或更多個分區重疊的程度;
選擇的分區的深度;
選擇的分區的分布;
分區被重新聚類的次數;
資源預算;
被所述兩個或更多個分區覆蓋的與所述一個或更多個屬性對應的值的寬度;或者
分區是否基于所述一個或更多個屬性被理想地聚類。
8.根據權利要求6所述的方法,其中,選擇所述兩個或更多個分區作為所述合并候選項包括忽略以下分區:
不與所述表中的任何其它分區重疊的分區;或者
不與所述表中的任何其它分區重疊超過重疊閾值的分區。
9.根據權利要求6所述的方法,其中,選擇兩個或更多個分區作為所述合并候選項包括:忽略包括針對所述一個或更多個屬性具有相同值的行值的分區。
10.根據權利要求1所述的方法,其中,重新聚類包括增量地改進聚類,并且其中重新聚類所述表數據的所述一個或更多個分區基于重新聚類迭代而朝向理想分區收斂。
11.根據權利要求1所述的方法,其中,重新聚類包括基于重新聚類資源預算、分區的數量、數據大小或可用的計算資源中的一個或更多個來重新聚類。
12.根據權利要求1所述的方法,其中,重新聚類包括合并兩個或更多個分區以生成具有改進的聚類的一個或更多個分區。
13.根據權利要求1所述的方法,其中,在對所述表的所述改變之前或之后,所述表沒有被理想地聚類,其中理想地聚類包括以下項中的一項或更多項:
每個分區在與所述一個或更多個屬性對應的值的范圍內不包括重疊;或者
針對所述一個或更多個屬性中的屬性的分區的所有行包括相同的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于斯諾弗雷克公司,未經斯諾弗雷克公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780067721.6/1.html,轉載請聲明來源鉆瓜專利網。





