[發明專利]一種基于文件熱度分析和K-means的副本放置方法在審
| 申請號: | 201510943677.3 | 申請日: | 2015-12-16 |
| 公開(公告)號: | CN105574153A | 公開(公告)日: | 2016-05-11 |
| 發明(設計)人: | 馬廷淮;李堅;田偉;金子龍 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇愛信律師事務所 32241 | 代理人: | 唐小紅 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文件 熱度 分析 means 副本 放置 方法 | ||
技術領域
本發明屬于云計算領域,具體涉及的是一種利用熱度統計分析與K-means算法對 云環境下高熱度文件副本動態調整放置的方法。
背景技術
隨著社會的發展以及計算機存儲和數據處理能力的提高,數據爆炸式增長已經成 為當今時代的一個重要特征。根據國際數據公司(InternationalDataCorportion,IDC) 對數據增長的估計,到2020年將產生40ZB(1ZB=1.1805916207174113×1021B)的數據,相當 于地球上人均5247GB(http://datacenter.watchstor.com/infra-143421.htm)。面對規模 不斷增長的海量數據,隨之而來的海量數據的存儲和管理也得到了越來越多的關注。
為了提高系統的可靠性和訪問效率,常用副本技術將數據項復制多份,并分別存 放在分布式文件系統的多個節點上。針對各個歷史階段對數據提出的不同訪問要求,人們 提出了多種副本管理策略,主要包括主從式、層次式、對等計算(PeertoPeer,P2P)式和基 于圖的等幾種。
副本管理策略通常要進行副本個數和存放位置兩方面的決策,按照做決策的時機 可分為靜態和動態兩類。IanForster和KavithaRanganathan于2001年提出了在層次網絡 拓撲結構中的六種副本創建策略:無副本策略、最佳客戶策略、瀑布式策略、普通緩存策略、 緩存瀑布式策略、快速擴展策略(數據網格環境下基于經濟模型的副本優化策略的研究與 實現李琳.)。這些策略在大部分情況下都能夠減少訪問延遲,但瀑布式策略、緩存瀑布式策 略和快速擴展策略只適用于數據存儲于頂層節點的數據網格,最佳客戶策略、普通緩存策 略沒有考慮到拓撲結構、數據分布、網絡帶寬、節點存儲能力等特點(基于存儲聯盟的雙層 動態副本創建策略-SADDERS孫海燕,王曉東,周斌等.),沒有考慮到文件大小和網絡帶寬對 訪問延遲的影響。
本發明通過分析文件在預設時間周期內的訪問頻率,根據熱度計算公式,推算文 件的訪問熱度。利用文件的訪問熱度,結合K-means算法,預測下一周期內可能的高訪問熱 度文件(基于熱度分析的動態副本創建算法饒磊,楊凡德,李新明,劉東.),同時綜合考慮統 計周期、文件大小、工作環境等多種因素,動態地調整文件副本的數量及放置位置。
發明內容
本發明的所要解決的技術問題是分布式系統或云計算平臺中的副本放置問題,提 出一種基于文件熱度分析和K-means的副本放置方法,根據任務的執行時間選取最大值作 為時間周期,計算時間周期內文件的訪問熱度。利用文件的訪問熱度,結合K-means算法,預 測下一周期內可能的高訪問熱度文件,綜合考慮統計周期、文件大小、工作環境等多種因 素,按需動態地調整文件副本的數量及放置位置。本發明能夠有效地減少文件訪問的平均 響應時間,提高數據服務性能。
技術方案:
一種基于文件熱度分析和K-means的副本放置方法,包括以下步驟:
步驟1),根據任務的執行時間,選擇最小值作為熱度分析的時間周期,在該時間周 期內分析文件的訪問頻率;
步驟2),根據步驟1)得到的文件訪問頻率,計算文件的訪問熱度值;
步驟3),根據步驟2)得到的文件訪問熱度值,獲取高熱度值的文件的信息,通過K- means算法,計算并預測下一運行周期的高熱度文件;
步驟4),根據步驟3)得到的高熱度文件信息,綜合考慮文件大小、文件數量、文件 位置、工作環境等眾多因素動態地調整文件副本的數量以及放置位置;
進一步的,本發明的一種基于文件熱度分析和K-means的副本放置方法,步驟1)根 據任務的執行時間,選擇最大值作為熱度分析的時間周期,在該時間周期內分析文件的訪 問頻率。本發明使用了文件訪問次數計數器和統計周期計時器。初始化時,默認文件訪問次 數為1,每個統計周期內,文件每次被訪問計數器加1,未被訪問則計數器減1。若訪問次數已 經為1,則計數器不再執行減1操作。若文件訪問超時未完成,訪問計數器加1。某文件在第k 個統計周期內的訪問頻率fk=n/t,其中n為該文件在統計周期內被訪問的次數,t為統計周 期內訪問的持續時間之和;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510943677.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種時鐘校準方法、裝置和系統
- 下一篇:變倍率液態鏡頭裝置





