[發(fā)明專(zhuān)利]基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201210305545.4 | 申請(qǐng)日: | 2012-08-27 |
| 公開(kāi)(公告)號(hào): | CN102902716A | 公開(kāi)(公告)日: | 2013-01-30 |
| 發(fā)明(設(shè)計(jì))人: | 陳國(guó)慶;錢(qián)揚(yáng)帆 | 申請(qǐng)(專(zhuān)利權(quán))人: | 蘇州兩江科技有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 蘇州創(chuàng)元專(zhuān)利商標(biāo)事務(wù)所有限公司 32103 | 代理人: | 范晴 |
| 地址: | 215123 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 分布式 計(jì)算 平臺(tái) 存儲(chǔ)系統(tǒng) | ||
1.一種基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng),包括HDFS通用文件處理模塊,其特征在于所述系統(tǒng)還包括文件類(lèi)型判斷模塊、小文件處理模塊和定時(shí)模塊;所述文件類(lèi)型判斷模塊用于判斷用戶(hù)上傳的文件是否屬于小文件;當(dāng)用戶(hù)上傳的文件大小小于HDFS文件系統(tǒng)的塊時(shí),文件類(lèi)型判斷模塊判斷文件為小文件,否則文件類(lèi)型判斷模塊判斷文件為大文件;
定時(shí)模塊,通過(guò)設(shè)置定時(shí)器計(jì)時(shí),到達(dá)預(yù)定周期時(shí)進(jìn)行統(tǒng)計(jì)小文件處理模塊中小文件序列的大小,判斷小文件序列的大小是否大于HDFS文件系統(tǒng)的塊;
小文件處理模塊,用于將每個(gè)小文件作為一個(gè)Record存入SequenceFile類(lèi)中形成小文件隊(duì)列;當(dāng)定時(shí)模塊判斷小文件序列的大小大于HDFS文件系統(tǒng)的塊時(shí),以小文件的文件名作為Key值,而文件內(nèi)容作為Value值,一次性將小文件隊(duì)列寫(xiě)入MapFile中,并同時(shí)刪除已處理的小文件。
2.根據(jù)權(quán)利要求1所述的基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng),其特征在于所述系統(tǒng)還包括小文件狀態(tài)數(shù)據(jù)庫(kù),采用MySQL數(shù)據(jù)庫(kù)存儲(chǔ)小文件的文件名、文件大小、上傳日期、存儲(chǔ)路徑,并使用FileList對(duì)象維護(hù)該小文件隊(duì)列;當(dāng)小文件隊(duì)列寫(xiě)入MapFile后,更新FileList對(duì)象和MySQL數(shù)據(jù)庫(kù)后,再刪除已處理的小文件。
3.根據(jù)權(quán)利要求1所述的基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng),其特征在于所述系統(tǒng)還設(shè)置有文件信息表,所述文件信息表設(shè)置小文件狀態(tài)字段flag,flag=0表示小文件處于待處理狀態(tài),flag=1表示小文件已處理,并存在于HDFS的MapFile中,flag=2表示小文件重生成寫(xiě)入到本地磁盤(pán)中。
4.根據(jù)權(quán)利要求3所述的基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng),其特征在于所述系統(tǒng)構(gòu)建MySQL索引和MapFile索引,MapFile索引通過(guò)文件信息表的文件名字段構(gòu)建索引。
5.一種基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)的文件上傳存儲(chǔ)方法,其特征在于所述方法包括以下步驟:
(1)用戶(hù)向具有基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)的服務(wù)器上傳文件;
(2)文件文件類(lèi)型判斷模塊判斷用戶(hù)上傳的文件是否屬于小文件;當(dāng)上傳的文件為大文件時(shí),直接上傳存儲(chǔ)到HDFS中;當(dāng)上傳的文件為小文件時(shí),將每個(gè)小文件作為一個(gè)Record存入SequenceFile類(lèi)中形成小文件隊(duì)列,并啟動(dòng)定時(shí)模塊;
(3)當(dāng)?shù)竭_(dá)預(yù)定周期時(shí)進(jìn)行統(tǒng)計(jì)小文件處理模塊中小文件序列的大小,判斷小文件序列的大小是否大于HDFS文件系統(tǒng)的塊;當(dāng)定時(shí)模塊判斷小文件序列的大小大于HDFS文件系統(tǒng)的塊時(shí),以小文件的文件名作為Key值,而文件內(nèi)容作為Value值,一次性將小文件隊(duì)列寫(xiě)入MapFile中,并同時(shí)刪除已處理的小文件。
6.一種基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)的文件下載讀取方法,其特征在于所述方法包括以下步驟:
(1)用戶(hù)向具有基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)的服務(wù)器發(fā)送下載文件;
(2)具有基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)判斷文件是否存儲(chǔ)在本地磁盤(pán);
(3)當(dāng)文件存在于本地磁盤(pán),直接通過(guò)下載組件訪問(wèn)下載;
(4)當(dāng)文件不存在于本地磁盤(pán),具有基于Hadoop分布式計(jì)算平臺(tái)的存儲(chǔ)系統(tǒng)啟動(dòng)MYSQL索引和MapFile索引,先將小文件從MapFile中讀取到本地磁盤(pán),然后通過(guò)下載組件訪問(wèn)下載。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于蘇州兩江科技有限公司,未經(jīng)蘇州兩江科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210305545.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲(chǔ)模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺(tái)度量方法
- 云環(huán)境中模型驅(qū)動(dòng)的Hadoop部署方法
- 基于麒麟云計(jì)算平臺(tái)的Hadoop集群自動(dòng)化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲(chǔ)、查詢(xún)的方法、裝置、系統(tǒng)、設(shè)備、存儲(chǔ)介質(zhì)
- 一種文件型門(mén)衛(wèi)式存儲(chǔ)加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





