[發明專利]一種基于Ceph的海量小文件存取優化方法有效
| 申請號: | 201810343960.6 | 申請日: | 2018-04-17 |
| 公開(公告)號: | CN108710639B | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 王勇;陸小霞;葉苗;郇宜鳴 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/172;G06F16/13;G06F16/182 |
| 代理公司: | 桂林市持衡專利商標事務所有限公司 45107 | 代理人: | 陳躍琳 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ceph 海量 文件 存取 優化 方法 | ||
本發明公開一種基于Ceph的海量小文件存取優化方法,當用戶存儲文件時,先利用K?means聚類算法獲得小文件的關聯分組,再對每組內的文件按從大到小的順序進行排序,然后將關聯分組內的關聯文件進行合并后再存儲至Ceph中。當用戶發起訪問請求時,系統先檢查請求文件是否在緩存中,若存在直接讀取并返回請求文件;否則將請求信息發送到Ceph集群,實現小文件的讀取并根據文件塊間的利用率及相關率進行小文件的預取及緩存,返回請求文件及預取小文件。該發明通過減少用戶與集群的交互,減少用戶訪問時間,提高海量小文件的訪問效率,提高系統的整體性能。
技術領域
本發明涉及分布式文件存儲技術領域,具體涉及一種基于Ceph的海量小文件存取優化方法。
背景技術
隨著云計算和大數據的迅速發展,全球數據量呈指數遞增,傳統的存儲系統由于其設備成本和維護成本等因素已不能漸漸滿足人的存儲需求。此外,隨著小文件數量的不斷增大,大部分分布式存儲系統已經不能滿足小文件的高效存儲和讀取的需求。如何解決海量小文件的存儲和管理問題,提高小文件的存儲和訪問效率是現在最大的挑戰。
Ceph是一種分布式文件系統,其在處理大文件時,可以實現文件的高效存儲和管理,但Ceph在存儲海量小文件時,仍存在一些不足:
(1)海量小文件的存儲效率較低。Ceph本地存儲接口為支持事務,引入日志機制使得所有的寫入操作都需要先寫入日志,再通過對象存儲接口寫入本地文件系統,因此在大規模連續I/O的情況下,實際磁盤上輸出的吞吐量是其物理性能的一半,導致小文件存儲性能較低;
(2)海量小文件的讀取效率不高。當小文件被頻繁訪問時,集群需要在多個存儲節點之間不斷跳躍查找,因此會導致Ceph集群的小文件讀取性能較差。
發明內容
本發明所要解決的是Ceph在處理海量小文件時存在存儲和讀取效率低的問題,提供一種基于Ceph的海量小文件存取優化方法。
為解決上述問題,本發明是通過以下技術方案實現的:
一種基于Ceph的海量小文件存取優化方法,包括步驟如下:
步驟1、獲取客戶端同一時段內待上傳的文件的文件的文件名和文件大小,并根據設定的文件閾值對這些文件進行分類:當待上傳的文件的大小大于文件閾值時,則判定為大文件,直接上傳到Ceph集群;當待上傳的文件的大小等于或小于文件閾值時,則判定為小文件;
步驟2、利用K-means聚類算法對小文件進行關聯分組,并對各個分組內的小文件按照文件大小從大到小進行排序,再將各分組內的小文件依次進行合并后上傳到Ceph集群,同時根據小文件在合并文件內的映射關系生成索引文件;
步驟3、當用戶發出訪問請求時,客戶端判斷請求文件是否在客戶端的緩存中:若在客戶端的緩存中,則直接從客戶端的緩存中直接訪問該請求文件;否則,客戶端將請求信息上傳Ceph集群;
步驟4、Ceph集群接收請求信息,并根據請求文件的文件名確定其文件類型,若請求文件為大文件時,則直接從Ceph集群中讀取該請求文件,并存儲到客戶端緩存中供用戶訪問,若請求文件為小文件時,則先根據索引文件確定請求文件在合并文件中的具體位置信息,再從Ceph集群中讀取該請求文件,并存儲到客戶端緩存中供用戶訪問。
上述步驟1中,文件閾值根據Ceph集群文件塊大小設定。
上述步驟2中,各個分組內的小文件在關聯合并過程中,需要判斷待合并的小文件與之前合并生成的合并文件的大小之和是否大于文件閾值;若小于等于文件閾值,直接將待合并的小文件合并到之前合并生成的合并文件中,否則,需要重新申請一個合并文件。
上述步驟2中,索引文件的結構為key,value,其中key保存小文件的文件名,value保存小文件在合并文件中的起始位置file_offset和小文件的大小file_length。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810343960.6/2.html,轉載請聲明來源鉆瓜專利網。





