[發明專利]一種基于深度強化學習的流式數據實時近似計算方法有效
| 申請號: | 202010914395.1 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN111813800B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 李國良;柴成亮;潘巍巍;唐文升;李開宇;李飛飛;葉翔;王錦志;裘煒浩;丁麒;侯素穎;嚴華江;歐陽柳 | 申請(專利權)人: | 國網浙江省電力有限公司營銷服務中心;清華大學;國網浙江省電力有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2458;G06F16/28 |
| 代理公司: | 杭州華鼎知識產權代理事務所(普通合伙) 33217 | 代理人: | 魏亮 |
| 地址: | 311121 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 數據 實時 近似 計算方法 | ||
本發明涉及一種基于深度強化學習的流式數據實時近似計算方法,方法包括:根據數據表格確定樣本屬性,樣本屬性為離散型屬性或者數值型屬性或者混合型屬性;離散型屬性的數據表格中所有數據項的取值范圍均有限,且均以字符串形式保存;數值型屬性的數據表格中所有數據項的取值范圍均無限,且均以浮點型數字的形式保存;混合型屬性的數據表格中一部分數據項的取值范圍有限,且以字符串形式保存,另一部分數據項的取值范圍無限,且以浮點型數字的形式保存;基于樣本屬性生成樣本的數據表;根據生成的數據表構建全局統一的樣本;當獲取到查詢請求后,根據查詢請求確定選樣方案;根據選樣方案,對全局統一的樣本進行近似查詢估計,得到近似結果。
技術領域
本發明涉及數據庫技術領域,尤其涉及一種基于深度強化學習的流式數據實時近似計算方法。
背景技術
在數據庫管理實務中,針對海量數據進行在線聚合查詢是一項十分廣泛的應用,其查詢結果可以幫助數據庫使用者、管理者乃至于其他模塊進行進一步的重要決策。對比于OLTP(Online Transaction Processing,聯機事務處理過程)中更關注于面向交易的單個事務的結果,在線聚合查詢致力于OLAP(Online Analytical Processing,聯機分析處理),更關注于快速地對海量業務數據給出多維度的分析,從統計信息發現數據特征,支持實時決策。
現代數據庫中,為了便于進行數據管理與查詢,已經涌現出多種對于數據的索引技術,這其中包括軟件層面與硬件層面的優化,這些索引技術有助于更快的檢索到在OLAP中所需要的數據記錄與相關列,從而進行計算分析。針對不同的業務需求,行數據庫與列數據庫分別被應用于不同的應用場景以優化查詢過程。同時,數據庫引擎中,會通過對各子模塊(例如代價估計器、連接操作調度)進行調優,以改進查詢性能。然而在針對大規模海量數據的場景下,傳統的優化方法無法滿足實時查詢對于快速響應的需求,隨著海量流式數據在日志文件、金融交易、電商訂單、地理信息等應用中體量的日益增長,傳統方法再也無法滿足OLAP的需求。
OLAP的許多查詢并不要求百分之百的準確,其對于誤差有一定的容忍度。在有足夠置信度的近似估算下,可以根據近似結果給出決策,進而大大的節約計算時間。例如,若要查詢一家電商公司過去一年的平均銷售額,需要檢索幾千萬行的數據,而后進行求平均運算。這往往需要訪問保存在不同服務器、不同扇區的數據,而且進行計算的過程也較為耗時。然而,如果數據分布均勻,則可以只訪問其中一個扇區,抽取出其中的1000行,用這1000行的數據平均值,近似代替全量幾千萬行數據的平均值。因此,在過去的幾十年中,許多研究者提出了針對這一問題的處理辦法,它們或基于采樣技術(sampling)應用全量數據的一個子集,應用數理統計理論,給出一個包含置信區間的近似估算。或基于數據離線建立直方圖、進行小波變換或采集其他統計信息、建立物化視圖等。這些方法都可以在一定程度上以高響應速度給出近似查詢結果。
然而許多痛點問題仍然未能得到很好地解決。例如傳統方法大部分基于查詢日志對于未來的查詢給出了假設,通常是假設未來查詢相關的列和查詢日志完全一致,所有建立的離線樣本都是基于這些列建立的。這樣新的查詢類型出現時,現有的離線樣本無法支持新查詢。另外針對新的流式數據的不斷產生,傳統方法無法動態地調整采樣策略與答案生成策略。另外,傳統方法大部分基于每一種查詢的列或者列的組合都產生一個樣本,這樣的方法會占用大量的時間去生成這些樣本,大量的空間去儲存這些樣本,同時設計相應的索引去支持檢索。
發明內容
為了解決現有技術的上述問題,本發明提供一種基于深度強化學習的流式數據實時近似計算方法。
為了達到上述目的,本發明采用的主要技術方案包括:
一種基于深度強化學習的流式數據實時近似計算方法,方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司營銷服務中心;清華大學;國網浙江省電力有限公司,未經國網浙江省電力有限公司營銷服務中心;清華大學;國網浙江省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010914395.1/2.html,轉載請聲明來源鉆瓜專利網。





