[發(fā)明專利]一種基于機器學習的數(shù)據(jù)庫健康度打分方法和打分系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811220356.0 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN109271374B | 公開(公告)日: | 2021-01-26 |
| 發(fā)明(設計)人: | 王會羽;錢琳;俞俊;朱廣新;李凡 | 申請(專利權)人: | 國網(wǎng)江蘇省電力有限公司信息通信分公司;南瑞集團有限公司;國電南瑞科技股份有限公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F11/36;G06N20/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 常虹 |
| 地址: | 210001 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 數(shù)據(jù)庫 健康 打分 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于機器學習的數(shù)據(jù)庫健康度打分方法和打分系統(tǒng),其中打分方法包括如下步驟:1、采集數(shù)據(jù)庫監(jiān)控指標,通過專家模型得到健康度打分;采集到的原始數(shù)據(jù)和打分作為樣本集;2、對樣本集中的數(shù)據(jù)進行去噪、歸一化等預處理,并將其分為訓練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù);3、采用回歸預測算法建立回歸預測模型,利用訓練數(shù)據(jù)訓練模型參數(shù),利用驗證數(shù)據(jù)調(diào)整模型參數(shù),利用測試數(shù)據(jù)測試模型的效果;4、讀取數(shù)據(jù)庫一段時間內(nèi)的監(jiān)控指標并進行預處理,作為回歸預測模型的輸入,模型的輸出即為當前或未來一段時間數(shù)據(jù)庫健康度打分結(jié)果。該方法可以對大量的數(shù)據(jù)庫監(jiān)控指標進行分析,通過建立回歸預測模型,得到當前或未來時刻的數(shù)據(jù)庫健康度打分結(jié)果。
技術領域
本發(fā)明屬于數(shù)據(jù)庫的運維領域,具體涉及一種采用人工智能方法對數(shù)據(jù)庫健康度進行打分和預測的方法和系統(tǒng)。
背景技術
目前大型數(shù)據(jù)庫系統(tǒng)的運維主要靠高端DBA(Database Administrator,數(shù)據(jù)庫管理員)來維護,DBA通過查看數(shù)據(jù)庫的各項指標,可以對數(shù)據(jù)庫的整體運行情況進行健康度打分,這種方法被稱為“專家模型”。專家模型是依賴具有多年數(shù)據(jù)庫運維經(jīng)驗的專家,人工選取對數(shù)據(jù)庫健康程度影響最大的指標,采用人工設定的閾值,對各項指標進行打分,最終將各項得分總和起來,得到最終的健康得分。但是只依賴專家DBA的經(jīng)驗,難以應對數(shù)據(jù)庫運維的各項困境。數(shù)據(jù)庫的監(jiān)控指標數(shù)量十分龐大,靠人工分析成本太高;不同的指標之間的關聯(lián)關系很復雜,人工分析很難找到規(guī)律;依賴人工容易發(fā)現(xiàn)問題,但是很難定位問題;不同數(shù)據(jù)庫軟件的監(jiān)控指標各不相同;系統(tǒng)復雜程度不斷增加,關聯(lián)關系更加復雜。總結(jié)起來,專家模型的主要缺點有:1、指標是由專家依靠經(jīng)驗選取的,還有大量的指標未被選取,這些未被選取的指標是否對數(shù)據(jù)庫健康重要,專家也無法給出答案,未被選取的指標分析工作量十分巨大,靠人工無法完成;2、專家模型無法分析出各項指標之間的關聯(lián)關系;各個指標之間是孤立的;3、專家模型無法給出未來一段時間的健康得分預測,只能根據(jù)當前得到的指標計算當前得分。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術中存在的問題,本發(fā)明提供了一種利用機器學習對數(shù)據(jù)庫健康度進行打分和預測的方法,該方法可以對大量的數(shù)據(jù)庫監(jiān)控指標進行分析,通過建立回歸預測模型,可以得到當前或未來時刻的數(shù)據(jù)庫健康度打分結(jié)果。
技術方案:本發(fā)明一方面提供了一種基于機器學習的數(shù)據(jù)庫健康度打分方法,包括如下步驟:
(1)采集數(shù)據(jù)庫監(jiān)控指標,并通過專家模型得到健康度打分;采集到的原始數(shù)據(jù)和打分作為樣本集;
(2)對樣本集中的數(shù)據(jù)進行去噪、歸一化等預處理,并將樣本集中的數(shù)據(jù)分為訓練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù);
(3)采用回歸預測算法建立回歸預測模型,利用訓練數(shù)據(jù)訓練模型參數(shù),利用驗證數(shù)據(jù)調(diào)整模型參數(shù),利用測試數(shù)據(jù)測試模型的效果;
(4)讀取數(shù)據(jù)庫一段時間內(nèi)的監(jiān)控指標,采用與步驟(2)相同的方法進行預處理,預處理后的數(shù)據(jù)作為回歸預測模型的輸入,模型的輸出即為當前或未來某一時刻數(shù)據(jù)庫健康度打分結(jié)果。
作為一種優(yōu)選,步驟(2)中對樣本集中的數(shù)據(jù)進行去噪后還包括特征選取,之后再進行歸一化處理;所述特征選取為計算監(jiān)控指標的重要度,刪除樣本集中重要度最小的前N個監(jiān)控指標;具體包括如下步驟:
(2.1)建立GBM回歸模型,設置提升樹個數(shù)m和學習率ρ,損失函數(shù)為均方誤差;
(2.2)將去噪后的樣本集分為GBM訓練集和GBM測試集,用GBM訓練集訓練GBM回歸模型;訓練過程中如果n輪訓練的損失函數(shù)不再減少,則訓練停止;否則繼續(xù)訓練直到損失函數(shù)不再減少;訓練停止后得到樣本集中每個監(jiān)控指標的重要度值;
(2.3)重復步驟(2.1)和(2.2)W次,每個監(jiān)控指標得到W個重要度值,取其平均值作為所述監(jiān)控指標的重要度值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網(wǎng)江蘇省電力有限公司信息通信分公司;南瑞集團有限公司;國電南瑞科技股份有限公司,未經(jīng)國網(wǎng)江蘇省電力有限公司信息通信分公司;南瑞集團有限公司;國電南瑞科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811220356.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





