[發明專利]文件的處理方法、設備及可讀存儲介質在審
| 申請號: | 202010750284.1 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN111898340A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 江國洲 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/166;G06F16/16 |
| 代理公司: | 上海光柵知識產權代理有限公司 31340 | 代理人: | 喬慧;馬雯雯 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 處理 方法 設備 可讀 存儲 介質 | ||
本公開實施例提供的文件的處理方法、設備及可讀存儲介質,包括:接收字符分割值CSV文件,并將CSV文件中的文件內容轉換為字節數組;根據字節數組確定CSV文件的編碼格式;根據編碼格式確定CSV文件中的文件數據。本公開實施例提供的方法、設備及可讀存儲介質能夠將CSV文件轉換為字節數組,再基于字節數組確定文件的編碼格式,進而能夠準確的解析CSV文件,避免由于不知道文件格式編碼,導致出現數據亂碼、編碼錯誤的問題。
技術領域
本公開實施例涉及文件處理技術,尤其涉及一種文件的處理方法、設備及可讀存儲介質。
背景技術
字符分割值(Comma-Separated Values,CSV)文件以純文本形式存儲表格數據(數字和文本)。純文本意味著該文件是一個字符序列,不含必須像二進制數字那樣被解讀的數據。CSV文件由任意數目的記錄組成,記錄間以某種換行符分隔;每條記錄由字段組成,字段間的分隔符是其它字符或字符串,最常見的是逗號或制表符。
CSV文件經常用來作為不同程序之間的數據交互的格式。因此,需要對CSV文件進行讀取操作,但是,CSV文件的編碼格式較多,在讀取CSV文件時容易造成數據亂碼、編碼錯誤等問題。
發明內容
本公開實施例提供一種文件的處理方法、設備及可讀存儲介質,以解決在處理CSV文件時出現的數據亂碼、編碼錯誤等問題。
第一方面,本公開實施例提供一種文件的處理方法,包括:
接收字符分割值CSV文件,并將所述CSV文件中的文件內容轉換為字節數組;
根據所述字節數組確定所述CSV文件的編碼格式;
根據所述編碼格式確定所述CSV文件中的文件數據。
在一種可能的設計中,所述根據所述編碼格式確定所述CSV文件中的文件數據,包括:
根據所述編碼格式確定解讀器,并通過所述解讀器讀取所述字節數組中包括的分隔符;
根據讀取的所述分隔符確定所述CSV文件中的文件數據。
在一種可能的設計中,所述根據所述字節數組確定所述CSV文件的編碼格式,包括:
識別所述字節數組中的字符分布方式,并根據所述字符分布方式確定所述CSV文件的編碼格式。
在一種可能的設計中,所述根據讀取的所述分隔符確定所述CSV文件中的文件數據,包括:
根據讀取到的多種分隔符的數量確定目標分隔符;
根據所述目標分隔符確定所述CSV文件中的文件數據。
在一種可能的設計中,將所述CSV文件中的文件內容轉換為字節數組時,若所述文件內容中包括預設字符,將所述CSV文件的編碼格式由第一類型轉換為第二類型。
在一種可能的設計中,所述將所述CSV文件的編碼格式由第一類型轉換為第二類型,包括:
刪除所述預設字符,并根據刪除所述預設字符后的文件內容確定所述字節數組。
在一種可能的設計中,所述預設字符是\ufeff。
在一種可能的設計中,還包括:
將所述文件數據封裝成符合預設格式的文檔;
其中,封裝后的所述文件數據在所述文檔中按所述預設格式顯示。
第二方面,本公開實施例提供一種文件的處理設備,包括:
轉換模塊,用于接收字符分割值CSV文件,并將所述CSV文件中的文件內容轉換為字節數組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010750284.1/2.html,轉載請聲明來源鉆瓜專利網。





