[發明專利]一種非結構化數據文件解析方法及工具在審
| 申請號: | 202010595944.3 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111723067A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 張洪超;國靖 | 申請(專利權)人: | 浪潮卓數大數據產業發展有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F40/205;G06F16/17;G06F16/16 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 郗艷榮 |
| 地址: | 214029 江蘇省無錫市濱*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結構 數據文件 解析 方法 工具 | ||
本發明特別涉及一種非結構化數據文件解析方法及工具。該非結構化數據文件解析方法及工具,基于數據處理相關python類包,結合Java與JS數據處理算法,實現對各類非結構化數據文件的高兼容,提高數據解析的速度,在保證效率的同時也要保證數據解析的準確性與工具易用性。該非結構化數據文件解析方法及工具,適用于多種非結構化數據文件的解析,不僅減輕了非結構化數據文件處理的工作量,還提高了數據文件解析過程中的容錯性,保證了數據文件解析的準確性。
技術領域
本發明涉及數據處理技術領域,特別涉及一種非結構化數據文件解析方法及工具。
背景技術
非結構化數據庫是指其字段長度可變,并且每個字段的記錄又可以由可重復或不可重復的子字段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。
隨著互聯網的高速發展,每天都會有大量的數據產生,這些數據大多雜亂無章,無法直接產生價值。在采集大批量數據時,不同網站產生的數據結構風格也各不相同。而隨著數據量得不斷增大,數據解析的壓力也會越來越大。當有大量的數據文件產生時,提高數據解析的效率也顯得尤為重要。
其中,存儲在數據庫里的結構化數據即行數據,是可以用二維表結構來邏輯表達實現的數據,因而容易解析與搜索。與結構化數據相對應的,非結構化數據先有數據,再有結構,因而不易解析與搜索。
隨著網絡技術的發展,特別是Internet和Intranet技術的飛快發展,使得非結構化數據的數量日趨增大。這時,主要用于管理結構化數據的關系數據庫的局限性暴露地越來越明顯。因而,數據庫技術相應地進入了后關系數據庫時代,發展進入基于網絡應用的非結構化數據庫時代。
非結構化WEB數據庫主要是針對非結構化數據而產生的,與以往流行的關系數據庫相比,其最大區別在于它突破了關系數據庫結構定義不易改變和數據定長的限制,支持重復字段、子字段以及變長字段并實現了對變長數據和重復字段進行處理和數據項的變長存儲管理,在處理連續信息(包括全文信息)和非結構化信息(包括各種多媒體信息)中有著傳統關系型數據庫所無法比擬的優勢。
隨著網絡技術和網絡應用技術的飛快發展,完全基于Internet應用的非結構化數據庫將成為繼層次數據庫、網狀數據庫和關系數據庫之后的又一重點、熱點技術。
為了實現對大量非結構數據的解析、提取,獲得結構化的便于直觀分析的數據,本發明提出了一種非結構化數據文件解析方法及工具。旨在提高數據解析效率的前提下也保證數據解析的準確性及工具易用性。
準確性是指數據解析的是否符合要求,解析后得到的數據需要能正確的存入到指定數據庫中。
易用性是指此工具操作簡單,容易配置,從而降低用戶的學習成本與時間成本。
發明內容
本發明為了彌補現有技術的缺陷,提供了一種簡單高效的非結構化數據文件解析方法及工具。
本發明是通過如下技術方案實現的:
一種非結構化數據文件解析方法,其特征在于:基于數據處理相關python類包,結合Java與JS數據處理算法,實現對各類非結構化數據文件的高兼容,提高數據解析的速度,在保證效率的同時也要保證數據解析的準確性與工具易用性。
具體包括以下步驟:
第一步,配置讀取路徑,寫入路徑與解析規則;
第二步,管理并啟動解析任務;
第三步,對解析任務進行實時監控,當解析任務現錯誤時,反饋錯誤原因,并提供建議修復方案或自定義修復方案。
本發明非結構化數據文件解析方法,解析規則采用自動配置的方式,同時也支持自定義算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮卓數大數據產業發展有限公司,未經浪潮卓數大數據產業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010595944.3/2.html,轉載請聲明來源鉆瓜專利網。





