[發明專利]基于MPI的云存儲中數據消冗方法有效
| 申請號: | 201810774657.1 | 申請日: | 2018-07-16 |
| 公開(公告)號: | CN109189995B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 劉嘉輝;朱寶森 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/9032 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mpi 存儲 數據 方法 | ||
本發明提出了一種基于MPI的云存儲中數據消冗方法。包括:1.客戶端計算文件指紋簽名并發送到云端主服務器進行文件級消冗;若該文件不存在則進行并行數據分塊并將文件元數據和分塊元數據以及數據分塊發送到云端主服務器;2.云端主服務器收到文件指紋后在二級索引結構上進行檢索從而判斷是否存在該文件;接收文件元數據和所有分塊元數據及數據分塊并存儲文件元數據;將分塊元數據發送到云端從服務器節點在消冗矩陣上利用MPI進行分布式并行消冗并將數據分塊發送到從服務器處理。本發明充分利用云存儲系統中多核資源的特性,以及二級索引結構來進行高效檢索數據,提高了數據消冗的計算性能,適合在云存儲系統中處理各種類型的文件。
技術領域
本發明涉及分布式并行計算領域、信息檢索和云計算領域,尤其涉及一種基于MPI(Message Passing Interface)的云存儲中數據消冗方法。
背景技術
云存儲是指通過集群應用、網格技術和分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。目前國際上的云環境主要有Amazon公司的AWS,Microsoft公司的Azure,Google公司的Google Cloud Platform;國內主要有阿里云、百度云、騰訊云、網易云等。
隨著傳統互聯網技術進一步發展以及新興的大數據技術、人工智能技術、物聯網技術越來越趨于成熟,當今社會每天要處理的數據量已經達到了PB級別甚至達到了EB級別,傳統的數據存儲技術已經遠遠不能滿足現實世界的需求,因此可以將這些數據存儲到云環境中。但是,在公有云中存在大量存儲數據的冗余,即文件或存儲空間存在重復的數據,因此,在公有云環境中存儲數據應盡量進行數據消冗處理,以便節省存儲和網絡空間資源,提高存取性能和網絡帶寬,盡量減少數據存儲和管理的成本。公有云存儲系統中數據消冗的應用列舉如下。
案例1,某企業要進行年終數據匯總分布存儲。公司中的各個部門將數據報表整理完畢之后形成公司在該年的總報表上傳到云環境中進行共享。在云存儲系統中,首先要進行檢索是否存在重復數據,從而對已存儲過的數據進行消冗處理,如果已存儲數據文件則直接增加該數據的引用次數,否則,將該數據存儲到云環境中來提高存取性能。當該公司需要數據的時候,可直接在云環境中進行高效地檢索和下載,分布在不同地區的子公司可以及時獲得所需的文件和數據資源達到一致性。
案例2,某公司要開展企業內部的視頻會議。該視頻會議中的場景主要是公司的背景和所有職工。那么在視頻會議中就會有大量的場景是重復的內容,因為場景在會議中一般不會改變。視頻會議完畢后,將該會議存儲到公有云環境中進行備份時云存儲服務器就要先對會議的視頻數據進行消冗之后進行存儲,這樣可以節省存儲空間,增加共享資源的下載速度。
案例3,某氣象部門通過物聯網將采集到的數據信息實時地存儲到云環境中,以便于后期對氣象數據進行分析和挖掘。由于采集到的氣象數據存在大量的重復性,例如:在一段時間內大量存在雨云數據或者低氣壓數據,因此,在將這些氣象數據存儲到云存儲服務器之前先要進行數據消冗處理,之后再將這些數據進行存儲,這樣可以盡量占用更少的網絡帶寬資源,減少數據存儲和數據維護的成本。
案例4,人類基因圖譜是生物醫學工程的核心數據,是進行各種基因比對、基因變異等研究的關鍵,因此,數據消冗對于大量的基因圖譜研究是一種非常有效的方法。通過數據消冗可以快速發現基因位和片段的變化。
云存儲系統中的云端服務器需要進行數據的檢索。傳統的數據檢索方案有哈希表,采用多種方法來解決哈希碰撞問題。這種檢索方案對于海量數據進行檢索的效率不高,主要原因在于鏈表的遍歷相對需要更多時間。因此,需要一個數據檢索高效而且又能夠有效解決哈希碰撞的索引結構。這是數據檢索中的一個核心的問題。
云端從服務器slaver使用布隆過濾(Bloom Filter)矩陣進行全局數據消冗。布隆過濾器能夠加快數據的檢索速度,但是存在誤判,因此發生誤判的從服務器節點需要上述高效的索引結構進行檢索從而進行全局消冗處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810774657.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





