[發明專利]文件處理的方法及裝置有效
| 申請號: | 201810652326.0 | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN109086307B | 公開(公告)日: | 2020-04-14 |
| 發明(設計)人: | 王玉潑;吳連亮 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/13;G06F9/50 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 處理 方法 裝置 | ||
本說明書實施例提供一種文件處理的方法和裝置,根據該方法,通過起始文件塊獲取行容量,再根據預設分片行數和行容量確定分界文件塊,通過下載分界文件塊獲取其中的行分隔符,從而至少基于該行分隔符得到對應分片文件的索引數據,用于解析設備根據該索引數據從云存儲服務器解析該分片文件,如此提高文件處理的有效性。
技術領域
本說明書一個或多個實施例涉及計算機技術領域,尤其涉及通過計算機文件處理的方法和裝置。
背景技術
云計算(Cloud Computing)是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網格計算(Grid Computing)的發展,通過網絡將龐大的計算處理程序拆分成若干較小的子程序,將這些小程序分別交由多臺服務器所組成的系統進行計算,并輸出計算結果。云存儲是在云計算上延伸出來的概念,一般是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量不同類型的存儲設備通過應用軟件集合在一起,實現協同工作,共同對外提供數據存儲和業務訪問功能。即云存儲系統就是一個以數據存儲和管理為核心的云計算系統。云存儲系統可以通過一定的應用軟件或應用接口,為用戶提供一定類型的存儲服務和訪問服務。
通常,需要解析文件的情況下,例如需要將文件從其他格式解析成內部可以處理的格式時,如果文件較大,往往需要將大文件切割為較小的切片文件,然后由解析設備集群對各個切片文件進行解析。這個過程通常涉及大文件和切割好的切片文件的下載和上傳,產生較多耗時。因此,希望能有改進的方案,在解析大文件時,通過有效的文件分割,減少耗時,提高文件處理的有效性。
發明內容
本說明書一個或多個實施例描述了一種方法和裝置,可以選擇性地下載部分待處理文件,通過確定各個分片文件的索引信息確定待處理文件的劃分方案,而無需下載整個文件并真實切割,從而減少耗時,提高文件處理的有效性。
根據第一方面,提供了一種文件處理的方法,適用于通過解析設備集群針對待云存儲服務器中的處理文件進行解析的情況,包括:從云存儲服務器下載起始文件塊,以獲取所述待處理文件的首個行分隔符的位置,所述起始文件塊是所述待處理文件中從起始位置開始的、包括所述首個行分隔符的文件塊;基于所述首個行分隔符的位置確定所述待處理文件的行容量;根據預設分片行數和所述行容量,下載所述待處理文件中的第一分界文件塊,所述第一分界文件塊包括,當按照所述預設分片行數將所述待處理文件進行劃分時,劃分得到的多個分片文件中第一分片文件的結束位置的行分隔符;至少基于所述第一分界文件塊中的行分隔符的位置,確定所述第一分片文件的第一索引數據,所述第一索引數據包括第一開始索引和第一結束索引,所述第一索引數據用于所述解析設備集群中的解析設備按照所述第一索引數據,從所述云存儲服務器解析所述第一分片文件。
在一些實施例中,所述從云存儲服務器下載起始文件塊包括:從起始位置開始下載預定大小的文件塊作為起始文件塊,并從所述起始文件塊中查找行分隔符;在未查找到行分隔符的情況下,向后增加一個預定大小的文件塊以更新所述起始文件塊,直到從中查找到首個行分隔符。
在一些實施例中,基于所述首個行分隔符的位置確定所述待分割文件的行容量包括:將所述行容量確定為,所述待處理文件的起始位置至所述首個分隔符的位置所包含的字節數。
在一些實施例中,根據預設分片行數和所述行容量下載所述待處理文件中的第一分界文件塊包括:確定所述第一分片文件的文件開始位置;確定所述第一分界文件塊的塊開始位置為,所述文件開始位置加上分片容量的位置,所述第一分界文件塊的大小為一個行容量,其中,所述分片容量為,所述預設分片文件行數與所述行容量的乘積。
在一些實施例中,根據預設分片行數和所述行容量,下載所述待處理文件中的第一分界文件塊還包括:下載所述第一分界文件塊,并從所述第一分界文件塊中查找行分隔符;在未查找到行分隔符的情況下,向后增加一個行容量大小的文件塊以更新所述第一分界文件塊,并下載更新后的第一分界文件塊,直到從中查找到行分隔符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810652326.0/2.html,轉載請聲明來源鉆瓜專利網。





