[發明專利]數據文件的智能解析方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011517840.7 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112395251A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 高飛鶴 | 申請(專利權)人: | 深圳賽安特技術服務有限公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/16 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據文件 智能 解析 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及大數據技術,揭露了一種數據文件的智能解析方法,包括:將用戶上傳的數據文件進行文件格式解析,得到所述數據文件的文件格式;根據所述文件格式對所述數據文件進行初始解析,得到原始數據集;根據預設的規則確定法對所述原始數據集進行內容解析,得到標準數據集;將所述標準數據集以數據表的形式顯示給用戶進行確認。本發明還涉及區塊鏈技術,標準數據集可存儲于區塊鏈中。本發明還揭露一種數據文件的智能解析裝置、電子設備及計算機可讀存儲介質。本發明可以實現提高數據文件解析效率的智能解析功能。
技術領域
本發明涉及大數據技術領域,尤其涉及一種數據文件的智能解析方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著大數據的快速發展,很多數據并不是直接存儲在數據庫中,而是先存儲在各種電子文件中,再導入到數據庫中,由于電子文件的格式多種多樣,包括txt、excel、csv等,因此需要將數據文件進行解析,以提取文件中的數據,并將數據導入數據庫。
傳統的數據導入過程包括:上傳文件;選擇文件格式;表頭選擇;列分隔符選擇;行分隔符選擇;編碼方式選擇;字段確認;及建表入庫。這些操作步驟比較冗長,都需要用戶的手動參與,耗時長且效率低下,且容錯率較低,一旦發生錯誤需要全部重新設置,消耗資源。
發明內容
本發明提供一種數據文件的智能解析方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提供一種提高解析效率的數據文件智能解析方法。
為實現上述目的,本發明提供的一種數據文件的智能解析方法,包括:
將用戶上傳的數據文件進行文件格式解析,得到所述數據文件的文件格式;
根據所述文件格式對所述數據文件進行初始解析,得到原始數據集;
根據預設的規則確定法對所述原始數據集進行內容解析,得到標準數據集;
將所述標準數據集以數據表的形式顯示給用戶進行確認。
可選地,所述將用戶上傳的數據文件進行文件格式解析,得到所述數據文件的文件格式,包括:
接收用戶上傳的數據文件;
獲取所述數據文件的完整名稱;
對所述完整名稱進行截取,得到所述數據文件對應的后綴名;
將所述后綴名與預設的文件格式庫進行對比,得到所述數據文件的文件格式。
可選地,所述根據所述文件格式對所述數據文件進行初始解析,得到原始數據集,包括:
根據所述數據文件的文件格式,選擇對應的文件解析器;
將所述數據文件與所述文件解析器進行匹配,判斷所述文件解析器是否適用所述數據文件;
若所述文件解析器不適用所述數據文件,重新選擇文件解析器;
若所述文件解析器適用所述數據文件,通過所述文件解析器提取所述數據文件中所有的數據內容,得到原始數據集。
可選地,所述將所述數據文件與所述文件解析器進行匹配,判斷所述文件解析器是否適用所述數據文件,包括:
利用所述文件解析器對所述數據文件進行字典校驗;
若校驗通過,則判定所述文件解析器適用所述數據文件;
若校驗失敗,則判定所述文件解析器不適用所述數據文件,并提示匹配不到對應的文件解析器,重新選擇文件解析器。
可選地,所述根據預設的規則確定法對所述原始數據集進行內容解析,得到標準數據集,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳賽安特技術服務有限公司,未經深圳賽安特技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011517840.7/2.html,轉載請聲明來源鉆瓜專利網。





