[發明專利]一種針對窗口函數range方式的窗口采樣算法在審
| 申請號: | 201810354967.8 | 申請日: | 2018-04-19 |
| 公開(公告)號: | CN108710641A | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 王曉玲;屈穩穩;宋光旋 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 窗口函數 采樣算法 采樣數據 查詢響應 時間開銷 隨機采樣 置信區間 大數據 行數據 數據庫 查詢 關聯 返回 應用 優化 保證 表現 | ||
1.一種針對窗口函數range方式的窗口采樣算法,其特征在于,該方法包括以下步驟:
S1:對表中的數據進行隨機采樣,保證表中的所有數據被等概率地取到;
S2:從采樣后的表中獲取到分區P′,原始的分區使用P進行表示;分區的劃分以SQL語句中的partition key為依據;分區P和P′的大小相同,區別在于P′分區內的數據為采樣后的數據,小于原始的數據量,從而降低了窗口函數的計算量;
S3:對P′中的數據進行排序,排序按照SQL語句中sort key為依據。
S4:在分區P′上建立采樣窗口;針對range方式確立的窗口;對于采樣后的數據,直接建立窗口;而對于缺失的數據r,使用查找算法找到離其最近的采樣數據sr;將sr所在的窗口作為當前的計算窗口;
S5:對于每一個采樣窗口,初始化窗口的上下界和窗口的轉移值;
S6:對每條數據應用adjust_transfunc函數來更新結果得到最終的轉移值;然后將每個窗口的轉移值添加到結果之中;adjust_transfunc是對原本的窗口函數的調整;
S7:回到S4,迭代進行計算,直到所有數據計算結束;
S8:利用公式(1),計算在當前采樣率下的置信區間;
其中εn代表總體和樣本間的誤差;p代表置信度,Zp代表正態分布下置信度p所對應的Z值,σ代表總體方差;
S9:輸出結果。
2.根據權利要求1的窗口采樣算法,其特征在于,所述步驟S1-S7中在窗口外部進行采樣來擬合窗口函數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810354967.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種提高Spark SQL的查詢效率的方法
- 下一篇:一種車聯網軌跡擴展方法





