[發(fā)明專利]分布式文件系統(tǒng)列式存儲的元數(shù)據(jù)更新方法、裝置、主機有效
| 申請?zhí)枺?/td> | 201410063272.6 | 申請日: | 2014-02-24 |
| 公開(公告)號: | CN104866497B | 公開(公告)日: | 2018-06-15 |
| 發(fā)明(設(shè)計)人: | 鄧利群;朱俊華 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 唐華明 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 元數(shù)據(jù) 行組 分布式文件系統(tǒng) 更新 元數(shù)據(jù)更新 元數(shù)據(jù)索引 全局文件 元數(shù)據(jù)塊 文件頁 主機 存儲 數(shù)據(jù)表轉(zhuǎn)換 動態(tài)更新 更新操作 計算資源 實際數(shù)據(jù) 數(shù)據(jù)記錄 數(shù)據(jù)索引 行分割 | ||
本發(fā)明公開一種基于分布式文件系統(tǒng)列式存儲的元數(shù)據(jù)更新方法、裝置、主機,方法包括:獲取分布式文件系統(tǒng)的數(shù)據(jù)表中待更新的元數(shù)據(jù),將所述數(shù)據(jù)表的數(shù)據(jù)記錄按行分割為多個行組,將所述數(shù)據(jù)表轉(zhuǎn)換成一個全局文件元數(shù)據(jù),以及多個行組文件,其中,所述行組文件包括實際數(shù)據(jù)塊、數(shù)據(jù)索引塊、本地元數(shù)據(jù)塊、元數(shù)據(jù)索引塊以及文件頁腳;判斷所述待更新的元數(shù)據(jù)是否屬于所述全局文件元數(shù)據(jù),如果否,則:更新本地元數(shù)據(jù);根據(jù)更新后的本地元數(shù)據(jù),在所述多個行組文件中增加更新后的本地元數(shù)據(jù)塊、元數(shù)據(jù)索引塊以及文件頁腳。本發(fā)明的方法實現(xiàn)了元數(shù)據(jù)的動態(tài)更新,大大節(jié)省了該類更新操作的執(zhí)行時間及所需計算資源。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更具體的說是涉及一種基于分布式文件系統(tǒng)列式存儲的元數(shù)據(jù)更新方法、裝置、主機。
背景技術(shù)
Append-Only文件系統(tǒng),即文件系統(tǒng)只支持文件的讀或者追加寫操作,而不像傳統(tǒng)的文件系統(tǒng)一樣支持文件的就地修改操作。該類文件系統(tǒng)具有寫性能高、多副本容易保持一致性等特性,廣泛應(yīng)用在大規(guī)模分布式存儲系統(tǒng)中,典型的代表實例包括GFS(GoogleFile System,Google分布式文件系統(tǒng))、HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng))等。在Append-Only文件系統(tǒng)中,列式存儲較之傳統(tǒng)的行式存儲具有獨特的優(yōu)勢,在列式存儲中,數(shù)據(jù)記錄按列分割并獨立存儲,從而相同列的數(shù)據(jù)類型相同且連續(xù)存儲,大大提升了數(shù)據(jù)的壓縮率,降低了為后續(xù)查詢操作的數(shù)據(jù)IO,另外,各列數(shù)據(jù)分開存儲,數(shù)據(jù)查詢時只需掃描相關(guān)的列數(shù)據(jù)而直接過濾無關(guān)列,大幅提升該類查詢的性能。
在Append-Only文件系統(tǒng)列式存儲中,新增內(nèi)容總是追加寫在文件的末尾,只能以覆蓋寫實現(xiàn),即刪除現(xiàn)有文件,并為待更新文件生成新的文件,而不允許對文件內(nèi)容的就地更新。RCFile是一種可以實現(xiàn)列式存儲的數(shù)據(jù)存儲結(jié)構(gòu),RCFile是在HDFS的基礎(chǔ)之上設(shè)計和實現(xiàn)的,RFCile以行組為單位組織記錄,其中,除最后一個行組外的其他行組大小相等,每個HDFS塊可存儲多個行組。在各行組內(nèi)部,各列數(shù)據(jù)相互獨立并連續(xù)存儲,而元數(shù)據(jù)Metadata則保存著各列數(shù)據(jù)的位置偏移以及每個數(shù)據(jù)的字節(jié)長度等信息。數(shù)據(jù)表的可擴展標記語言架構(gòu)Schema信息則保存在第三方服務(wù)器中,如MySQL、Derby等,由于數(shù)據(jù)表的Schema存儲在MySQL中,通過Hive可以很方便地被修改。然而,RCFile的文件組織格式是固定的,其Metadata只保存著數(shù)據(jù)記錄個數(shù)、各列所占bytes大小等簡單信息,而不支持任何動態(tài)數(shù)據(jù)更新操作。
因此,現(xiàn)有Append-Only文件系統(tǒng)列式存儲中,現(xiàn)有的實現(xiàn)方式不能提供有效的元數(shù)據(jù)動態(tài)修改方法,對元數(shù)據(jù)的更新操作代價極高,它需要重新生成和重寫所有對應(yīng)的存儲文件,這對大規(guī)模數(shù)據(jù)而言,其帶來的計算資源開銷和時間消耗極其巨大。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是要解決現(xiàn)有Append-Only文件系統(tǒng)中,不能提供有效的元數(shù)據(jù)動態(tài)修改方法,對元數(shù)據(jù)的更新操作需要消耗巨大的計算資源開銷和時間開銷的問題,技術(shù)方案如下:
本申請的第一方面提供了一種基于分布式文件系統(tǒng)列式存儲的元數(shù)據(jù)更新方法,所述方法包括:
獲取分布式文件系統(tǒng)的數(shù)據(jù)表中待更新的元數(shù)據(jù),將所述數(shù)據(jù)表的數(shù)據(jù)記錄按行分割為多個行組,將所述數(shù)據(jù)表轉(zhuǎn)換成一個全局文件元數(shù)據(jù),以及多個行組文件,其中,所述行組文件包括實際數(shù)據(jù)塊、數(shù)據(jù)索引塊、本地元數(shù)據(jù)塊、元數(shù)據(jù)索引塊以及文件頁腳;
判斷所述待更新的元數(shù)據(jù)是否屬于所述全局文件元數(shù)據(jù),如果否,則:
更新本地元數(shù)據(jù);
根據(jù)更新后的本地元數(shù)據(jù),在所述多個行組文件中增加更新后的本地元數(shù)據(jù)塊、元數(shù)據(jù)索引塊以及文件頁腳。
結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,
所述更新本地元數(shù)據(jù),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410063272.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:圖片分類展示方法和裝置
- 下一篇:一種提升信息的曝光率的方法和裝置
- 元數(shù)據(jù)存取控制系統(tǒng)及其方法、以及接收裝置、發(fā)送裝置
- 一種云存儲客戶端的低延遲元數(shù)據(jù)訪問方法
- 熱點元數(shù)據(jù)訪問控制方法和服務(wù)器
- 在多個階段高效地存儲和檢索數(shù)據(jù)和元數(shù)據(jù)的方法和系統(tǒng)
- 元數(shù)據(jù)節(jié)點集群的擴容方法、系統(tǒng)、設(shè)備和存儲介質(zhì)
- 一種元數(shù)據(jù)緩存管理方法和裝置
- 元數(shù)據(jù)管理方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種元數(shù)據(jù)管理方法及裝置、設(shè)備、存儲介質(zhì)
- 用于存儲管理的方法、設(shè)備和計算機程序產(chǎn)品
- 論文元數(shù)據(jù)的檢測方法及裝置
- 分布式文件系統(tǒng)及其數(shù)據(jù)處理方法和裝置
- 一種IO模式識別方法、系統(tǒng)、設(shè)備及計算機存儲介質(zhì)
- 文件系統(tǒng)啟動方法及裝置
- 網(wǎng)絡(luò)文件系統(tǒng)替換方法、集群配置文件共享方法及裝置
- 多分布式文件系統(tǒng)中處理配置文件的方法及裝置
- 用于大數(shù)據(jù)分析的分布式文件系統(tǒng)中的多租戶數(shù)據(jù)服務(wù)
- 一種圖片存儲方法、圖片查詢方法及裝置
- 一種高效的并行分布式文件系統(tǒng)并行復(fù)制方法
- 分布式文件系統(tǒng)配置方法及裝置
- 一種分布式文件系統(tǒng)遠程復(fù)制方法、裝置、設(shè)備和介質(zhì)





