[發明專利]用于分散處理的大容量文件的分塊化方法及其裝置在審
| 申請號: | 201610344284.5 | 申請日: | 2016-05-23 |
| 公開(公告)號: | CN106611034A | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 姜成文 | 申請(專利權)人: | 三星SDS株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司11018 | 代理人: | 康泉,宋志強 |
| 地址: | 韓國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 分散 處理 容量 文件 分塊 方法 及其 裝置 | ||
技術領域
本發明涉及一種用于分散處理的大容量文件的分塊化方法及其裝置。更詳細地,涉及一種以用于分散處理經分塊化的大容量文件的作業節點能夠實質上同時處理完成所述大容量文件的方式對大容量文件進行分塊化的方法及其裝置。
背景技術
提供有用于分散處理大容量數據的技術。此外,提供有通過彼此不同的計算裝置來分散存儲包含有大容量數據的文件的技術。
例如,在作為廣為人知的大容量數據處理平臺的hadoop分散文件處理系統的hadoop分布式文件系統(HDFS:Hadoop Distributed File System)中,大容量數據被分割為塊單位并分散存儲在經聚類的數據節點(date node)中。此外,分散存儲的各塊的元信息被存儲在名稱節點(name node)中。所述元信息例如可包含有各塊的存儲位置信息。在以固定大小形成塊的情況下,隨著數據大小增加,塊的個數會增多,由此元信息的大小也會增加。下面的表1表示伴隨文件的分散存儲的元信息大小根據文件大小而增加。
【表1】
如上述表1所示,例如,如果文件大小為1PB,則分成16,777,216個塊來存儲, 由此可知光元信息大小就達到2400MB(2.34GB)。由于元信息被頻繁訪問,因此需要加載在存儲器上。將達到大約2.34GB的數據加載在存儲器中來運用的負擔會相當重。不僅產生根據分散存儲的元信息運用方面的負擔,而且還產生根據分散處理的各塊處理任務(task)的生成和運用方面的負擔。這是因為需要管理各個任務處理歷史。
即便如此,也不能盲目增加塊的大小。這是因為會降低根據分散處理的作業分散的效果。
因此,要求提供一種能夠維持作業分散的效果的同時,抑制塊的個數隨文件大小的增加而增加的程度的有效的文件分塊化方法及應用該方法的大容量文件的分散處理管理方法。本說明書中,分塊化(blocking)是指將文件以塊單位進行分割。
現有技術文獻
專利文獻:韓國授權專利第1374655號
發明內容
本發明所要解決的技術問題是提供一種能夠維持作業分散的效果的同時,抑制塊的個數隨文件大小的增加而增加的程度的有效的文件分塊化方法及其裝置。
本發明所要解決的另一技術問題是提供一種與現有技術相比利用更少的數量的塊來分散處理經分割的大容量數據的同時,以使各作業節點盡可能同時完成對經分割的塊的處理(processing)的方式對分散處理進行管理的方法及其裝置。
本發明所要解決的又一技術問題是提供一種通過在用于分散處理的大容量文件的分塊化過程中自動反映分散處理系統的作業環境,以使各作業節點盡可能同時完成對經分割的塊的處理(processing)的方式對分散處理進行管理的方法及其裝置。
本發明的技術問題并不限定于以上所提及的技術問題,本領域技術人員能夠從下面的記載中明確理解沒有提及的其它技術問題。
為了解決上述技術問題,本發明一實施例的由屬于分散處理系統的多個作業節點進行分散處理的文件的分塊化方法包括以下步驟:將所述文件劃分為第一區域和與所述第一區域的數據相比較晚被處理的第二區域;將所述第一區域分割為多個各種大小的塊;以及將所述第二區域分割為多個固定大小的塊。
在幾種實施例中,所述第一區域所包含的各種大小的塊分別為M個。(M為所述作業節點的個數)。此時,將第一區域分割為多個各種大小的塊的步驟可包括:從所述文件的最前面起將第一大小的塊形成M個(M為所述作業節點的個數);在未形成塊的區域,將與所述第一大小相比小的第二大小的塊形成M個;以及將在未形成塊的區域將與上一次形成的塊的大小相比小的大小的塊形成M個的步驟,以所述小的大小大 于所述固定大小為條件,反復進行。
在幾種實施例中,所述第二區域的大小可被設置為所述作業節點的個數和/或在各作業節點中執行的用于數據分散處理的并行進程的個數和/或各作業節點的性能越相同則越小,或者所述第二區域的大小可通過反映作業分散效果參數來確定,所述作業分散效果參數被設置為各作業節點的運行費用越低則越小。
在一實施例中,由屬于所述分散處理系統的多個作業節點進行分散處理的文件的分塊化方法進一步可包括以下步驟:僅在所述文件的大小大于所確定的第二區域的大小的情況下,執行所述劃分;將所述第一區域分割為各種大小的塊;以及將所述第二區域分割為相同大小的塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星SDS株式會社,未經三星SDS株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610344284.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:主控電子裝置及其通信方法
- 下一篇:一種云存儲中重復數據刪除的檢索算法





