[發(fā)明專利]一種分布式系統(tǒng)中的海量文件存儲(chǔ)和訪問方法無效
| 申請(qǐng)?zhí)枺?/td> | 201110433484.5 | 申請(qǐng)日: | 2011-12-22 |
| 公開(公告)號(hào): | CN102521383A | 公開(公告)日: | 2012-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 廖聞劍;倪良勝;汪洋 | 申請(qǐng)(專利權(quán))人: | 南京烽火星空通信發(fā)展有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210019 江蘇省南京市*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 系統(tǒng) 中的 海量 文件 存儲(chǔ) 訪問 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明專利申請(qǐng)公開一種信息技術(shù)領(lǐng)域的海量文件的存儲(chǔ)、組織和訪問方法。
背景技術(shù)
在信息技術(shù)領(lǐng)域,經(jīng)常需要處理大量的數(shù)據(jù),特別是在處理一些流式數(shù)據(jù)的時(shí)候,往往需要將數(shù)據(jù)保存在文件系統(tǒng)里面。但是文件系統(tǒng)的節(jié)點(diǎn)下的文件數(shù)量太多會(huì)導(dǎo)致IO瓶頸。在為了保持低成本而使用多個(gè)廉價(jià)存儲(chǔ)服務(wù)器構(gòu)成的分布式集群的時(shí)候,需要保證分布式存儲(chǔ)方法的有效性和簡(jiǎn)潔性。因此針對(duì)應(yīng)用的海量數(shù)據(jù)特性來組織和存儲(chǔ)文件,會(huì)提高海量文件服務(wù)的響應(yīng)性能。特別地,如果這些文件系統(tǒng)還需要響應(yīng)應(yīng)用程序不同維度的數(shù)據(jù)訪問的時(shí)候,需要對(duì)這些文件進(jìn)行遍歷訪問,因此采用何種方式來組織和存儲(chǔ)文件有可能會(huì)對(duì)應(yīng)用的反應(yīng)時(shí)間產(chǎn)生較大的影響。
比如在搜索引擎的文件存儲(chǔ)系統(tǒng)里面,搜索引擎接收和解析的各種文件體存放在本地文件系統(tǒng)里面,在搜索引擎按照不同的方法對(duì)文件進(jìn)行檢索的時(shí)候,經(jīng)常會(huì)遍歷這些文件的索引,同時(shí)還會(huì)訪問這些文件體及相關(guān)的凈文本。在一類特殊應(yīng)用里面,時(shí)間維度或者數(shù)據(jù)的業(yè)務(wù)類型可能是需要檢索的一個(gè)關(guān)鍵特性。百度、谷歌提供了對(duì)最新文件的檢索功能,但是其主要文件檢索過程則是在關(guān)鍵詞的字符基礎(chǔ)上發(fā)生的。因此,除非對(duì)百度、谷歌等商業(yè)化引擎進(jìn)行改造,使其能夠支持時(shí)間特性的檢索。還有其他的一些特性的檢索方式,百度、谷歌對(duì)其的支持也不好,這是因?yàn)槠溥M(jìn)行通用的搜索方面走的太遠(yuǎn)了的緣故。
本專利提出一種分布式系統(tǒng)中的海量文件存儲(chǔ)、組織和訪問方法,其利用分布式并行架構(gòu)和維度分割特性來對(duì)海量的文件進(jìn)行組織,使得對(duì)某些維度的數(shù)據(jù)訪問非常快捷。對(duì)于搜索引擎來講,由于限定訪問的維度和文件組織一致,只需要訪問指定節(jié)點(diǎn)所代表的維度即可完成應(yīng)用的要求,因此沒有額外的訪問開銷。
發(fā)明內(nèi)容
通過對(duì)文件按照各種維度來組織文件的存放,可以加速文件的訪問過程,針對(duì)應(yīng)用的要求減少不必要的文件訪問,是本發(fā)明申請(qǐng)的出發(fā)點(diǎn)。
比如文件對(duì)象有3個(gè)維度,時(shí)間、協(xié)議類型、業(yè)務(wù)類型等等,時(shí)間維度還可以細(xì)分為年月日、時(shí)、分等維度。如果應(yīng)用程序想訪問某一業(yè)務(wù)在某一時(shí)間段內(nèi)的數(shù)據(jù)時(shí),只需要訪問對(duì)應(yīng)的文件夾下的目錄里面的文件即可,即一個(gè)層次的目錄代表了一個(gè)維度。該層目錄下某個(gè)文件夾的文件名即代表了一個(gè)維度的一個(gè)實(shí)例。
常見的集群式分布式系統(tǒng),可以采用多臺(tái)節(jié)點(diǎn)來進(jìn)行文件的組織和存放,只需要將各個(gè)節(jié)點(diǎn)間的文件都按照一致的維度分割方法和秩序來進(jìn)行,即可使用訪問代理來對(duì)節(jié)點(diǎn)中的文件按照維度進(jìn)行同步的訪問,加快整個(gè)分布式系統(tǒng)的數(shù)據(jù)吞吐量。
當(dāng)上層應(yīng)用選擇某一個(gè)維度的文件訪問時(shí),訪問代理會(huì)將訪問轉(zhuǎn)化為對(duì)分布式節(jié)點(diǎn)的同步訪問,節(jié)點(diǎn)上的本地代理會(huì)將某個(gè)維度的訪問轉(zhuǎn)換為對(duì)相應(yīng)維度的文件夾內(nèi)文件的訪問,再由本地的訪問引擎對(duì)文件進(jìn)行處理并將處理結(jié)果反饋給訪問代理。
也就是說在多個(gè)分布式節(jié)點(diǎn)上使用相同的方式來組織和保存文件,即將海量數(shù)據(jù)按照多個(gè)維度存儲(chǔ),每一個(gè)維度為文件系統(tǒng)中的一個(gè)層次的目錄,目錄的名稱即該維度的一個(gè)實(shí)例。系統(tǒng)將訪問指令中的維度信息提取出來,轉(zhuǎn)化為對(duì)文件夾的訪問,可以提高數(shù)據(jù)訪問的效率,減小不必要的數(shù)據(jù)訪問開銷。
附圖說明
附圖1是不同節(jié)點(diǎn)間的文件存儲(chǔ)和組織方式。各個(gè)節(jié)點(diǎn)采用相同的方式按照不同的維度來組織和存儲(chǔ)文件。
附圖2是通過訪問代理對(duì)不同節(jié)點(diǎn)的數(shù)據(jù)訪問和分布式節(jié)點(diǎn)的本地代理進(jìn)行數(shù)據(jù)訪問的流程。
具體實(shí)施方式
按照?qǐng)D1所示,文件組織為多個(gè)層次結(jié)構(gòu),一個(gè)維度為一個(gè)層次的目錄,目錄的名稱為該維度的一個(gè)實(shí)例,比如日期為20111215。將最常用的維度放在最靠近根的層次下,比如附圖1所示的維度A。不同的節(jié)點(diǎn)采用相同的文件組織模式,
如圖2所示,具體的訪問步驟如下:
①應(yīng)用向訪問代理下發(fā)訪問指令,對(duì)某些維度的具體實(shí)例進(jìn)行訪問請(qǐng)求;
②訪問代理將指令轉(zhuǎn)化為對(duì)分布式節(jié)點(diǎn)的訪問,將訪問指令同步下發(fā)給各個(gè)分布式節(jié)點(diǎn)上的本地代理;
③分布式節(jié)點(diǎn)的本地代理將訪問指令分解為不同的維度實(shí)例集合,將訪問指令加載到訪問引擎;
④分布式節(jié)點(diǎn)的訪問引擎將訪問指令中的維度實(shí)例集合轉(zhuǎn)化為具體的文件夾,并對(duì)文件夾內(nèi)的數(shù)據(jù)進(jìn)行加載;
⑤分布式節(jié)點(diǎn)的訪問引擎對(duì)加載的數(shù)據(jù)按照指令進(jìn)行訪問后將結(jié)果返回給本地代理;
⑥分布式節(jié)點(diǎn)的本地代理將本分布式節(jié)點(diǎn)的結(jié)果返回給訪問代理;
⑦訪問代理綜合各個(gè)分布式節(jié)點(diǎn)的結(jié)果后返回給應(yīng)用。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京烽火星空通信發(fā)展有限公司,未經(jīng)南京烽火星空通信發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110433484.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法





