[發明專利]一種基于HDFS的海量醫療小文件分布式存儲方法在審

申請號：	201910793068.2	申請日：	2019-08-26
公開（公告）號：	CN110502479A	公開（公告）日：	2019-11-26
發明（設計）人：	付蔚;李克宇;童世華;趙紅瑩;張珂匯	申請（專利權）人：	重慶郵電大學
主分類號：	G06F16/13	分類號：	G06F16/13;G06F16/172;G06F16/182
代理公司：	11275 北京同恒源知識產權代理有限公司	代理人：	趙榮之<國際申請>=<國際公布>=<進入
地址：	400065 ***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	緩存分布式存儲數字串小文件集群預處理特征數字串文件相似性格式文件索引文件位數判斷相似文件性能優化醫療文件后提取求和降維加權存儲合成合并分配醫療
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于HDFS的海量醫療小文件分布式存儲方法，其特征在于：包括以下步驟：

S1：搭建標準分布式文件系統HDFS，劃分角色節點NameNode和DataNode，在標準HDFS中分配醫療文件預處理節點，其中，預處理節點分配原則與NameNode節點一致；

S2：通過客戶端提交上傳醫療文件至預處理節點；

S3：預處理節點對客戶端傳來的醫療文件進行預處理，包括大小判斷、合并、緩存、反饋和上傳操作；

S4：預處理節點處理后的文件上傳至標準HDFS，通過從NameNode獲取數據塊的元數據，將元數據內容存儲于NameNode；將文件內容劃分為數據塊分布存儲于DataNode中，并進行副本策略備份。

2.根據權利要求1所述的基于HDFS的海量醫療小文件分布式存儲方法，其特征在于：步驟S3中所述預處理，具體包括以下步驟：

S31：預處理節點接收到客戶端傳來的醫療文件，進行文件大小判斷，以HDFS中設定的數據塊大小為判斷閾值；

S32：若文件大小大于設定閾值，則判定為大文件，將其元數據存入NameNode節點，并由NameNode節點指定該文件存入相應DataNode；

S33：若文件大小小于設定閾值，則判定為小文件，存入緩存，等待合并；

S34：將緩存的醫療小文件根據其相似性進行合并，并生成索引文件以提高存取效率；

S35：將合成文件塊的元數據存入NameNode節點，并由NameNode節點指定該文件塊存入相應DataNode。

3.根據權利要求2所述的基于HDFS的海量醫療小文件分布式存儲方法，其特征在于：步驟S34中所述醫療小文件根據其相似性進行合并的具體步驟如下：

S341：提取緩存區小文件特征，生成該文件的特征矩陣；

S342：將特征進行hash運算，每個特征詞對應生成由0、1、-1組成的數字串；

S343：根據文件特征的重要性，對不同特征賦予不同權重值，生成權重矩陣；

S344：將權重與特征詞所對應的數字串相乘，生成一系列新的權重數字串；

S345：將該小文件的所有權重數字串相加求和，得到一個表示該小文件的特征數字串；

S346：將特征數字串降維，得到由0、1、-1組成的文件特征01數字串；

S347：根據海量醫療小文件的文件特征01數字串相同位數判斷文件相似性，并組成矩陣，取相似列向量代表的小文件進行合并。

4.根據權利要求3所述的基于HDFS的海量醫療小文件分布式存儲方法，其特征在于：步驟S347中，小文件合并技術采用SequenceFile技術，SequenceFile格式由一個頭部Header和多個記錄Record組成，頭部中包含版本信息、壓縮類型和用戶自定義元數據，記錄中則存放文件名和文件內容，同時記錄文件長度和文件名的長度；同時生成小文件在合并文件塊中的索引文件，格式為<key,value>,其中key值為文件名，value值為該小文件在此文件塊中的偏移量，該索引文件存放在與該SequenceFile文件塊相同DataNode上。

5.根據權利要求2所述的基于HDFS的海量醫療小文件分布式存儲方法，其特征在于：文件塊閾值大小設置為64MB，且小文件合成后的文件塊只能接近64MB，但不得大于64MB。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學，未經重慶郵電大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910793068.2/1.html，轉載請聲明來源鉆瓜專利網。