[發(fā)明專利]一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢時間預(yù)測方法有效
| 申請?zhí)枺?/td> | 201710647281.3 | 申請日: | 2017-08-01 |
| 公開(公告)號: | CN107491508B | 公開(公告)日: | 2020-05-26 |
| 發(fā)明(設(shè)計)人: | 伍賽;畢里緣;陳珂;陳剛;壽黎但;胡天磊 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06F16/2455 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 循環(huán) 神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)庫 查詢 時間 預(yù)測 方法 | ||
本發(fā)明公開了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢時間預(yù)測方法。首先從數(shù)據(jù)庫歷史查詢記錄中抽取出查詢計劃,構(gòu)成的原始數(shù)據(jù),一條查詢計劃包含操作信息和運行時間;按照運行時間長短將原始數(shù)據(jù)分類,使得每類中的查詢計劃的數(shù)量相等;對查詢計劃進行特殊處理獲得操作序列和運行時間序列;操作序列作為特征向量和運行時間序列作為標簽,輸入神經(jīng)網(wǎng)絡(luò),訓(xùn)練并得到模型;針對待測的查詢計劃,重復(fù)步驟獲得操作序列,輸入模型,輸出運行時間序列,完成對數(shù)據(jù)庫查詢時間的預(yù)測。本發(fā)明方法在關(guān)系型數(shù)據(jù)庫查詢時間預(yù)測上取得了良好的效果,模擬數(shù)據(jù)訓(xùn)練下模型的正確率高于78%。該方法可以用于解決查詢優(yōu)化、負載管理中的關(guān)鍵問題。
技術(shù)領(lǐng)域
本發(fā)明涉及了一種深度學(xué)習(xí)領(lǐng)域的建模和特征提取方法,尤其是涉及了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢時間預(yù)測方法。
背景技術(shù)
隨著數(shù)據(jù)庫中數(shù)據(jù)量的與日俱增和查詢的日益復(fù)雜,數(shù)據(jù)庫管理面對極大的挑戰(zhàn)。負載管理就是數(shù)據(jù)管理中面臨的挑戰(zhàn)之一。其要解決的核心問題就是查詢執(zhí)行時間的預(yù)測。該不該執(zhí)行某條查詢語句?如果要執(zhí)行,什么時候執(zhí)行?如果遲遲沒有結(jié)束,該等待多久之后強制結(jié)束該查詢?無法預(yù)計的長時間運行查詢是計算機資源耗盡的罪魁禍首。如果在執(zhí)行之前,查詢的運行時間就能被確定,就可以取消執(zhí)行無法在期望時間內(nèi)完成的查詢或者在計算機空閑時,不影響其他查詢的情況下執(zhí)行。但是由于數(shù)據(jù)庫系統(tǒng)的復(fù)雜性和計算機資源的競爭,很難精確地估計不同關(guān)系操作的開銷。因此,查詢開銷預(yù)測成為一個重要的研究問題。
近年來,針對查詢開銷的預(yù)測問題,研究人員提出了多種面向關(guān)系型數(shù)據(jù)庫的查詢開銷預(yù)測方案。有些研究沒有預(yù)測出真實的運行時間,而是估計了查詢完成的百分比或者輸出了一個任意單位的值來代表查詢開銷,類似于查詢優(yōu)化器的開銷預(yù)測。有些研究需要運行時性能統(tǒng)計,這需要額外的開銷去產(chǎn)生統(tǒng)計數(shù)據(jù)。
雖然上述的技術(shù)方案很大程度上解決了查詢開銷預(yù)測的問題,但是有兩個問題并沒有同時得到解決:第一,時間開銷預(yù)估的結(jié)果是任意單位,很難映射到時間單位,欠缺參考性。第二,預(yù)測需要查詢執(zhí)行中的信息,無法在查詢執(zhí)行前就給出預(yù)測。
發(fā)明內(nèi)容
為了解決背景技術(shù)中存在的問題,本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫查詢時間預(yù)測方法。
本發(fā)明首先設(shè)計了一種數(shù)據(jù)庫查詢計劃中操作特征提取方法,并設(shè)計了神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)。
本發(fā)明解決其技術(shù)問題采用的技術(shù)方案如下:
對查詢計劃進行特殊處理,具體是提取查詢計劃中操作的關(guān)鍵特征,經(jīng)過后序遍歷,生成操作序列;再使用一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)——LSTM(長短期記憶)神經(jīng)網(wǎng)絡(luò)來建立模型,預(yù)測運行時間。
所述方法的具體步驟如下:
(1)首先從數(shù)據(jù)庫歷史查詢記錄中抽取出查詢計劃構(gòu)成原始數(shù)據(jù),一條查詢計劃包含了多個操作及其對應(yīng)的運行時間;
查詢計劃是指數(shù)據(jù)庫中一個查詢語句轉(zhuǎn)換成具體的底層運行的計劃,是由數(shù)據(jù)庫查詢優(yōu)化器生成的。查詢計劃是由多個操作作為節(jié)點組成的多叉樹。
同一查詢語句可能會有不同的查詢計劃,其執(zhí)行結(jié)果相同,執(zhí)行時間不同。
(2)按照查詢計劃的運行時間長短將原始數(shù)據(jù)分類,使得每類中包含的查詢計劃的數(shù)量相等;
即按照運行時間長短順序劃分區(qū)間,將所有查詢計劃根據(jù)自身的運行時間歸類到各個區(qū)間中,使得每個區(qū)間中的查詢計劃的數(shù)量均勻;
(3)對查詢計劃進行特殊處理獲得操作序列,并將查詢計劃中的所有運行時間按照操作序列中的順序?qū)?yīng)排列組成運行時間序列;
(4)將操作序列作為特征向量和運行時間序列作為標簽,輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練并得到模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710647281.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





