[發明專利]一種文件整理方法和裝置在審
| 申請號: | 201810915902.6 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN110874349A | 公開(公告)日: | 2020-03-10 |
| 發明(設計)人: | 王子璠 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;郭晗 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 整理 方法 裝置 | ||
本發明公開了一種文件整理方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:根據任務信息中配置的文件整理選項,確定對所述任務的結果文件集的整理策略;按照所述整理策略整理所述結果文件集。該實施方式能夠根據用戶的文件整理意愿對任務的結果文件集進行整理,實現針對不同實際情況的文件整理,并避免出現大量小文件與單一大文件的情況,方便用戶對結果文件的處理和使用,大大簡化用戶工作量。
技術領域
本發明涉及計算機技術領域,尤其涉及一種文件整理方法和裝置。
背景技術
Hive(基于Hadoop(一個分布式系統基礎架構)的數據倉庫工具)可以將結構化的數據文件映射為一張數據庫表,通過類SQL語句將大多數查詢轉換為MapReduce(一個計算框架)任務。Hive(一種基于Hadoop的數據倉庫工具)的學習成本低、編寫速度快,且十分適合數據倉庫的統計分析。目前數據查詢系統使得用戶只需在該系統前端頁面上建立任務,當任務執行成功時,用戶將收到郵件通知,并可下載結果數據集。
目前對于結果數據集的文件整理問題沒有一個合適的解決方案。一種是不進行結果文件的合并而直接打包并提供下載。由于結果文件的數量通常有很多(事實上與MapReduce任務中的Reduce(歸約)數量一致,但Reduce的數量設置應以提高任務執行效率為目的,而不是為了結果文件方便使用),用戶得到的文件包中很有可能包括大量小文件,對非技術人員來說十分不利于內容的閱讀與查找。另一種是將所有結果文件合并為一個統一的大文件,導致當文件很大時無法使用(然而對HDFS(Hadoop分布式文件系統)來說,大文件非常常見)。以常見的文件格式csv(逗號分隔值)為例,當文件大小超過400MB時,Excel的打開時間幾乎不可忍受,且打開后數據顯示不完整,只能是用戶削減任務量或人為將單個任務分成多個任務分別執行,十分不方便。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
現有方案結果文件數量很多,不方便用戶使用,即使合并為統一的大文件仍給用戶帶來很大不便。
發明內容
有鑒于此,本發明實施例提供一種文件整理方法和裝置,能夠根據用戶的文件整理意愿對任務的結果文件集進行整理,實現針對不同實際情況的文件整理,并避免出現大量小文件與單一大文件的情況,方便用戶對結果文件的處理和使用,大大簡化用戶工作量。
為實現上述目的,根據本發明實施例的一個方面,提供了一種文件整理方法。
一種文件整理方法,包括:根據任務信息中配置的文件整理選項,確定對所述任務的結果文件集的整理策略;按照所述整理策略整理所述結果文件集。
可選地,按照所述整理策略整理所述結果文件集的步驟,包括:如果所述結果文件集的總大小大于預設閾值,則根據所述任務信息中文件分類字段的配置,對所述結果文件集進行文件分類和調整大小的操作;如果所述結果文件集的總大小小于或等于所述預設閾值,則對所述結果文件集進行文件合并的操作。
可選地,按照所述整理策略整理所述結果文件集的步驟,包括:根據所述任務信息中文件分類字段的配置,對所述結果文件集進行文件分類和調整大小的操作。
可選地,根據所述任務信息中文件分類字段的配置,對所述結果文件集進行文件分類和調整大小的操作的步驟,包括:如果所述任務信息中文件分類字段的數量大于設定值,則按照所述文件分類字段對所述結果文件集中的結果文件分類,并在所述分類成功后,對所述分類得到的每個類型的結果文件調整大??;如果所述任務信息中文件分類字段的數量不大于所述設定值,或者所述分類失敗,則對所述結果文件集中的結果文件調整大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810915902.6/2.html,轉載請聲明來源鉆瓜專利網。





