[發(fā)明專利]文件讀取方法及裝置有效
| 申請?zhí)枺?/td> | 201811541620.0 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109766318B | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設計)人: | 王勇 | 申請(專利權)人: | 新華三大數(shù)據(jù)技術有限公司 |
| 主分類號: | G06F16/172 | 分類號: | G06F16/172;G06F16/182;G06F16/13 |
| 代理公司: | 北京林達劉知識產(chǎn)權代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 450000 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 讀取 方法 裝置 | ||
1.一種文件讀取方法,其特征在于,所述方法包括:
接收文件讀取請求,所述文件讀取請求中包括要讀取的目標文件的標識;
根據(jù)所述目標文件的標識,在本地存儲的第一索引信息包括的子文件標識與合并文件標識的映射關系中,查找與所述目標文件的標識匹配的目標子文件標識及對應的目標合并文件標識;其中,合并文件存儲于Hadoop分布式文件系統(tǒng)HDFS、且所述合并文件中的子文件有關聯(lián)關系;
根據(jù)所述目標合并文件標識,在本地存儲的第二索引信息包括合并文件標識與所述HDFS的存儲塊標識的映射關系中,查找與所述目標合并文件標識對應的目標存儲塊標識;
按照預設獲取條件,確定要獲取的與所述目標文件關聯(lián)的子文件數(shù)量,向所述HDFS發(fā)送文件獲取請求,所述文件獲取請求中包含所述目標存儲塊標識、目標子文件標識、目標合并文件標識、所述子文件數(shù)量,以使所述HDFS在與所述目標存儲塊標識對應的目標存儲塊中查找與所述目標合并文件標識對應的目標合并文件,并在所述目標合并文件中查找所述目標文件及數(shù)量為所述子文件數(shù)量的關聯(lián)文件;
接收并緩存所述HDFS返回的目標文件以及關聯(lián)文件,
其中,所述按照預設獲取條件,確定要獲取的與所述目標文件關聯(lián)的子文件數(shù)量,包括:
通過用戶最大等待時間、HDFS數(shù)據(jù)返回時間及讀取一個子文件耗費的時間確定子文件數(shù)量。
2.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
獲取多個文件的歷史訪問日志,所述歷史訪問日志中包括多個文件的被訪問時間及被訪問次數(shù);
針對所述多個文件中的每一文件,根據(jù)所述多個文件的被訪問時間及被訪問次數(shù),在所述多個文件中除該文件之外的其他文件中,確定在訪問該文件之后與該文件具有訪問關聯(lián)的至少一文件,并確定該文件的多個第一關聯(lián)關系,其中,第一關聯(lián)關系用于表示該文件與至少一文件中任一文件的訪問關聯(lián);
根據(jù)所述多個文件中各文件的第一關聯(lián)關系,獲取第一關聯(lián)關系數(shù)量最多的第一文件,并依據(jù)所述第一文件的多個第一關聯(lián)關系,在所述多個文件中確定在所述第一文件被訪問之后依次被訪問的至少一關聯(lián)文件;
將所述第一文件及至少一關聯(lián)文件存儲在第一合并文件中。
3.根據(jù)權利要求2所述的方法,其特征在于,所述方法還包括:
在所述多個文件中各文件的第一關聯(lián)關系中,刪除確定至少一關聯(lián)文件時應用到的第一關聯(lián)關系,獲取剩余的第一關聯(lián)關系;根據(jù)剩余的第一關聯(lián)關系,獲取第一關聯(lián)關系數(shù)量最多的新第一文件;
在所述多個文件中,重復執(zhí)行依據(jù)所述新第一文件的多個第一關聯(lián)關系確定在所述新第一文件被訪問之后依次被訪問的至少一關聯(lián)文件、將所述新第一文件及在新第一文件被訪問之后依次被訪問的至少一關聯(lián)文件存儲在新第一合并文件中的過程,直到獲取不到剩余的第一關聯(lián)關系。
4.根據(jù)權利要求2所述的方法,其特征在于,所述第一關聯(lián)關系中記錄的相關聯(lián)的兩個文件中的一個為前驅(qū)文件,另一個為后繼文件,后繼文件為在訪問所述前驅(qū)文件之后被訪問的文件;則所述根據(jù)所述多個文件中各文件的第一關聯(lián)關系,獲取第一關聯(lián)關系數(shù)量最多的第一文件,并依據(jù)所述第一文件的多個第一關聯(lián)關系,在所述多個文件中確定在所述第一文件被訪問之后依次被訪問的至少一關聯(lián)文件,包括:
獲取包含所述多個文件中各文件的第一關聯(lián)關系的第一關聯(lián)關系集合;
在所述第一關聯(lián)關系集合中,獲取以第一文件作為前驅(qū)文件出現(xiàn)次數(shù)最多的第一目標關聯(lián)關系集合,并在所述第一目標關聯(lián)關系集合中,獲取第二關聯(lián)關系,所述第二關聯(lián)關系為:第一目標關聯(lián)關系集合中后繼文件被訪問次數(shù)最多的第一關聯(lián)關系;
若在所述第一關聯(lián)關系集合中存在前驅(qū)文件與第二關聯(lián)關系的后繼文件相同的第三關聯(lián)關系,從所述第三關聯(lián)關系中確定后繼文件出現(xiàn)次數(shù)最多的目標關聯(lián)關系,將目標關聯(lián)關系中的文件確定為關聯(lián)文件;
若在所述第一關聯(lián)關系集合中不存在前驅(qū)文件與第二關聯(lián)關系的后繼文件相同的第三關聯(lián)關系時,將所述第二關聯(lián)關系的后繼文件確定為關聯(lián)文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數(shù)據(jù)技術有限公司,未經(jīng)新華三大數(shù)據(jù)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811541620.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





