[發明專利]一種大規模硬盤故障預測領域中的數據預處理算法在審
| 申請號: | 202011211011.6 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112446420A | 公開(公告)日: | 2021-03-05 |
| 發明(設計)人: | 吳琦;王文俊;潘林;焦鵬飛 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京權智天下知識產權代理事務所(普通合伙) 11638 | 代理人: | 王新愛 |
| 地址: | 300100*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大規模 硬盤 故障 預測 領域 中的 數據 預處理 算法 | ||
本發明公開了一種大規模硬盤故障預測領域中的數據預處理算法,包括時間序列維度缺失值填充、數據打標建模、數據增強,面對輸入的缺失值占比非常龐大的硬盤故障數據,采用SDF算法對數據進行時間序列緯度上的缺失值填充,采用SMART?GAN模型對少樣本進行數據增強操作,當學習給定數據集的分布時,生成性對抗網絡顯示出強大的通用性。本發明涉及計算機技術領域,該大規模硬盤故障預測領域中的數據預處理算法,通過采用ROZ算法進行數據打標建模,使得ROZ算法可以很好地處理兩個連續時間點之間的突變情況,從而有效地增加了模型的區分能力,SDF算法可以有效地處理帶有時間序列屬性的數據的異常值所帶來的數值急劇變化,以及大面積缺失的情況。
技術領域
本發明涉及計算機技術領域,具體為一種大規模硬盤故障預測領域中的數據預處理算法。
背景技術
隨著數據中心數據規模的擴大,硬盤在計算機中的應用越來越廣泛。然而,硬盤故障在實際情況下經常發生。隨著使用時間的增加,硬盤的穩定性和準確性不斷下降,對整個基礎設施的負面影響是巨大的。基于SMART屬性的磁盤故障預測方法主要分為統計方法和機器學習方法,統計方法主要包括秩和檢驗以及貝葉斯方法。
但是在這三種方法中,使用所有25個屬性的支持向量機取得了最佳的預測性能,其FDR為50.6%,然而對于小部分SMART屬性,秩和檢驗優于SVM,在現實生活中,由于系統故障或磁盤老化等原因,它往往不能令人滿意,數據集中有許多缺失的值,這對我們的模型和特性有嚴重的影響,磁盤雖然不會立即失效,但是隨著長時間的小錯誤累積,磁盤會出現故障,然而,當我們使用二元分類法時,不可避免地會發生突變,如果直接使用發生故障的磁盤的歷史數據,而忽略兩個連續時間點之間的突變,則模型會與正數據和負數據混淆,將少數樣本進行GAN的data augmentation操作,并且由于磁盤故障預測再另一方面同樣是一個樣本極其不均衡數據,少的樣本在整體樣本中所占的比例相當之小。
發明內容
針對現有技術的不足,本發明提供了一種大規模硬盤故障預測領域中的數據預處理算法,解決了由于系統故障或磁盤老化等原因,它往往不能令人滿意,數據集中有許多缺失的值,磁盤雖然不會立即失效,但是隨著長時間的小錯誤累積,磁盤會出現故障,當使用二元分類法時,不可避免地會發生突變,如果直接使用發生故障的磁盤的歷史數據,而忽略兩個連續時間點之間的突變,則模型會與正數據和負數據混淆,將少數樣本進行GAN的dataaugmentation操作,并且由于磁盤故障預測再另一方面同樣是一個樣本極其不均衡數據,少的樣本在整體樣本中所占的比例相當之小的問題。
為實現以上目的,本發明通過以下技術方案予以實現:一種大規模硬盤故障預測領域中的數據預處理算法,包括以下步驟:
S1、時間序列維度缺失值填充:面對輸入的缺失值占比非常龐大的硬盤故障數據,采用SDF算法對數據進行時間序列緯度上的缺失值填充,其數學形式是逐次以三次曲線的極小點逼近尋求函數f(t)的極小點,令t1t2,在搜索區間[t1,t2]中以擬合f(t),使滿足(i=1,2)(此式記為(1)式)對求導并令其等于零,求得在[t1,t2]中由a0,a1,a2和a3表示的極小點表達式,再由方程組(1)解得a0,a1,a2和a3;
S2、數據打標建模:采用ROZ算法進行數據打標建模,其算法形式如下所示:
輸入:磁盤D的歷史數據;
輸出:經過篩選的磁盤歷史數據;
1:只加載失敗磁盤的最后一天數據Dpositive;
2:加載沒有失敗的磁盤的歷史數據;
3:連接兩個數據Dncaatite和Dpositiue,訓練一個模型模型goz;
4:加載在最后一天Dpositisc歷史失敗的磁盤的歷史數據;
5:sct有一個閾值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011211011.6/2.html,轉載請聲明來源鉆瓜專利網。





