[發明專利]一種基于機器學習和ceph思想的分布式儲存方法在審
| 申請號: | 201911389335.6 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111026337A | 公開(公告)日: | 2020-04-17 |
| 發明(設計)人: | 李昕哲;李欣宇;李剛 | 申請(專利權)人: | 中科星圖股份有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 鄧治平 |
| 地址: | 101399 北京市順義區臨空經濟核心*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 ceph 思想 分布式 儲存 方法 | ||
本發明提出一種基于機器學習和ceph思想的分布式儲存方法,包括如下步驟:步驟1:硬盤識別系統通過采用基于歸一化和支持向量機的硬盤識別模型,根據現有存儲介質的特征進行存儲介質分類,分為高、中、低等級;步驟2:文件識別系統通過基于文件特征權值的無監督學習模型,對分類錯誤的文件的結果進行模型矯正;對分類正確的文件所需的存儲介質等級進行匹配,選擇存儲介質使用策略;步驟3:用戶需要讀寫的文件與儲存介質的位置根據改進后的CRUSHING算法進行映射,根據映射將文件進行分布式儲存。本發明通過將存儲文件切塊,將各個模塊邏輯化,解耦了存儲業務中各個模塊,加入了分類機制,使得熱數據與高效的盤對應;低效的盤做備份,使系統更安全,造價更低廉。
技術領域
本發明涉及數據存儲領域,尤其是一種于機器學習和ceph思想的分布式儲存方法。
背景技術
隨著大規模分布式存儲系統(PB級的數據和成百上千臺存儲設備)的出現。這些系統必須平衡的分布數據和負載(提高資源利用率),最大化系統的性能,并且要處理系統的擴展和硬件失效。ceph設計了CRUSH(一個可擴展的偽隨機數據分布算法),用在分布式對象存儲系統上,可以有效映射數據對象到存儲設備上(不需要中心設備)。因為大型系統的結構是動態變化的,CRUSH能夠處理存儲設備的添加和移除,并最小化存儲設備的的添加和移動而導致的數據遷移。
傳統的Ceph架構,由于它的去中心化和偽隨機分布,平等化的思想,無法更高效的利用硬盤,存在以下缺點:
傳統分布式儲存方法將存儲模塊集中在一起進行儲存,無法實現分布式數據儲存且儲存資源利用率低。如今,全球數據存儲量呈現爆炸式增長,數據業務的急劇增加,傳統單一的SAN存儲或NAS存儲方式已經不適應業務發展需要。SAN存儲:成本高,不適合PB級大規模存儲系統。數據共享性不好,無法支持多用戶文件共享。NAS存儲:共享網絡帶寬,并發性能差。隨系統擴展,性能會進一步下降;
傳統集中存儲的將物理介質集中布放;數據上傳到存儲中心對機房環境要求高,要求機房空間大,承重、空調等都是需要考慮的問題;
傳統儲存方法存儲數據大多以塊為單位,忽略了用戶對不同數據有不同的存儲需求,導致某些低存儲需求的數據搶占高存儲需求數據的存儲資源;
其無法分辨硬盤的好壞,無法將熱數據放入條件更好的硬盤中。無法將高性能的盤作為存儲的主節點,低性能的盤作為備份。
發明內容
為了解決上述問題,本發明提出了可分類(文件和硬盤),高性能,高可用性,高擴展性的分布式存儲方法,利用機器學習,給上傳文件和底層的存儲盤分類。每個分類就是給Ceph加上的限定,在限定范圍內,實現其去中心化,平等化思想,更好的適應我們的應用場景。
本發明提出一種基于機器學習和ceph思想的分布式儲存方法,包括如下步驟:
步驟1:硬盤識別系統通過采用基于歸一化和支持向量機的硬盤識別模型,根據現有存儲介質的特征進行存儲介質分類,分為不同級別的多個等級;
步驟2:文件識別系統通過基于文件特征權值的無監督學習模型,對分類錯誤的文件的結果進行模型矯正;對分類正確的文件所需的存儲介質等級進行匹配,選擇存儲介質使用策略;
步驟3:用戶需要讀寫的文件與儲存介質的位置根據改進的CRUSHING算法進行映射,根據映射將文件進行分布式儲存。
進一步的,所述步驟1中,基于機器學習進行硬盤識別,包括:選擇硬盤并獲取硬盤信息,具體包括:是否是固態、是否為機械、主控方案、顆粒等級、出廠日期、硬盤讀寫速度作為識別特征,計算特征的均值、標準差進行均值歸一化,再通過基于支持向量機模型訓練硬盤類型識別的識別模型,利用基于支持向量機訓練的硬盤識別模型對硬盤進行識別;所述分為不同級別的多個等級包括分為高、中、低三個等級。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科星圖股份有限公司,未經中科星圖股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911389335.6/2.html,轉載請聲明來源鉆瓜專利網。





