[發明專利]基于對象關聯性評估的云存儲方法及裝置在審
| 申請號: | 201611106201.5 | 申請日: | 2016-12-05 |
| 公開(公告)號: | CN106776370A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 張凱;朱東杰;李肖赫;董爽爽;陳金昌;于江興;王琦;付國恒;戴苗苗;彭暄 | 申請(專利權)人: | 哈爾濱工業大學(威海);威海翰寶網絡科技有限公司 |
| 主分類號: | G06F12/0862 | 分類號: | G06F12/0862;G06F3/06 |
| 代理公司: | 北京怡豐知識產權代理有限公司11293 | 代理人: | 孫小棟,于振強 |
| 地址: | 264209*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 對象 關聯性 評估 存儲 方法 裝置 | ||
技術領域
本發明涉及,具體說是一種基于對象關聯性評估的云存儲方法及裝置。
背景技術
隨著互聯網快速發展,數據呈爆炸式增長,在當前眾多互聯網應用場景中,80%的數據是小文件。相對于大文件,海量小文件的存取給文件系統帶來巨大的壓力,因此其存儲效率成為云存儲行業關注的重點問題。
然而,現有海量小文件存儲方法存在數據寫入的響應時間長,索引維護代價高的技術問題。
發明內容
本發明就是為了解決海量小文件存儲方法寫入響應時間長、索引維護代價高的技術問題,提供一種寫入響應時間短、索引維護代價低的基于對象關聯性評估的云存儲方法及裝置。
本發明的有益效果是,提升海量小文件在存儲時的訪問性能。針對在目前分布式存儲系統中,對于海量小文件相關性評估方法的不足的不利影響,本發明首先提出了一種結合歷史關聯性與語義關聯性的對象關聯性評估模型。然后為提高預測的準確度,本發明提出回歸分析的校正方法。其次借助于對象關聯性評估數據進行對象預測分析,通過建立預取策略來減少小文件訪問的響應時間。
為測試對象關聯性評估預取模型中各參數的組合對緩存命中率的影響,使用HP的trace日志數據進行測試分析實驗,將其用于對象關聯性評估預取模型的有效性驗證。
HP trace日志來源加利福尼伯克利大學惠普實驗室。日志信息包含一個代理節點服務器(Proxy Node)在2010年12月份中前6天的用戶文件請求操作數據。數據共28349條記錄。數據格式如表1所示。
表1:
其中,請求路徑由版本號、賬戶名、容器名、文件名四部分構成。上表第一條記錄請求路徑為/v1/trant/music/beau.mp3,對應版本號v1,賬戶名trant,容器名music,文件名beauty.mp3。
實驗在單機上模擬對象時序訪問操作,假定內存足夠容納每次的預取對象,同時本次預取對象在下一步對象訪問操作后自動清除。測試使用機配置如表2所示。
表2:
由于數據本身存在多種類型的操作請求,而預取模型只要針對對象讀操作,因此需要對數據進行必要的預處理。預處理內容如下:
(1)去除無效的操作請求記錄(如HTTP狀態碼為404,505);
(2)去除非讀對象操作(如賬戶或容器的讀寫操作,對象的寫入更
新操作);
(3)提取所需特征并規格化,去除冗余特征。所需有效特征包括賬戶名(account)、容器名(container)、文件名(object)以及時間戳(timestamp)。
經過預處理,剩余有效數據記錄共20326條,去除無效數據記錄1354條,去除非讀對象操作數據記錄5669條,有效數據記錄中共7682個對象。各尺寸文件分布情況如圖5所示。
以第一輪樣本作為數據素材,記錄了在不同監視窗口的操作數取值情況下,基于對象關聯性預取算法取不同預取對象數時的性能比較如圖6示。
由圖6可知,隨著監視窗口的操作數下限的增長,五條曲線對應的緩存命中率呈上升趨勢,并且由預取文件數目上限的增長帶來的緩存命中率的大小差異逐漸縮小。同時,隨著預取文件數目上限的增長,緩存命中率的增長趨勢逐漸放緩。監視窗口操作數下限的設定本身會將原本有關聯性的對象分別劃分到無關的子訪問序列中,而通過增大這一設定參數的大小,可以將更多具有關聯性的對象劃分到同一子訪問序列中,挖掘出更多潛在的對象關聯性。隨著窗口大小增長,緩存命中率的增長趨勢逐漸放緩,在窗口大小在8的時候到最大命中率,窗口大小對對象關聯性劃分的有利趨向性達到飽合。從預取文件數目上限增長到3以后,在窗口大小為8的情況下,預取文件數目上限的增長并未帶來過多緩存命中率的增長而是將緩存命中率維持在一個相對穩定范圍內。
通過數據的統計分析,實驗將窗口大小設為8而預取文件數目上限設為4。以該參數設定為基礎,結合第1輪的實驗數據進行余下3輪的抽樣實驗。相應權重的校正數據如表3所示。
表3:
由表3的表格中第4輪校正的權重數據更新公式。返回第1輪樣本進行測試,測試結果與最初首輪樣本測試結果對比如圖7所示。從圖7可知,隨著窗口大小的增長,緩存命中率呈上升趨勢。當窗口較小時,權值修正后的對象關聯性評估模型相對原始情況有較高的緩存命中率。權值修正后,通過對權重的重分配,語義相關性一定程度上彌補了因窗口較小引起的時序相關性誤差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(威海);威海翰寶網絡科技有限公司,未經哈爾濱工業大學(威海);威海翰寶網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611106201.5/2.html,轉載請聲明來源鉆瓜專利網。





