[發明專利]一種通用的文本數據處理方法在審
| 申請號: | 201611094779.3 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN106776512A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 邱建波 | 申請(專利權)人: | 浪潮通信信息系統有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F9/445;G06F11/32 |
| 代理公司: | 濟南信達專利事務所有限公司37100 | 代理人: | 孟峣 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通用 文本 數據處理 方法 | ||
1.一種通用的文本數據處理方法,其特征在于,其實現過程為:
將采集的文本進行對象化解析,采用統一的配置文件描述來定義文本解析的內容;
對文件采集和處理過程進行監控,及時發現文本異常,當文件出現異常時發出告警。
2.根據權利要求1所述的一種通用的文本數據處理方法,其特征在于,將采集的文本進行對象化解析的過程為:
一、首先讀取配置文件,組織定義配置文件的信息:確定文件標題名稱、分隔符以及輸出和處理方式;
二、獲取一行數據,查看是否有備份,如果有則拼接備份,然后進入下一步,沒有則直接進入下一步;
三、按分隔符拆分,查看分割數組和定義是否相同,相同則根據定義的輸出進行數據處理,自動生成入庫控制文件。
3.根據權利要求2所述的一種通用的文本數據處理方法,其特征在于,在組織定義配置文件的信息中,根據文件標題名稱獲取相應的配置文件,然后對配置文件用xml包解析,獲取我們需要的文件標題、分隔符、輸出字段排序、以及每個字段來源和相應的處理函數。
4.根據權利要求2所述的一種通用的文本數據處理方法,其特征在于,所述配置文件,包含文本自身字段和后期處理字段,并且包含文件的ftp來源信息,其中后期處理字段為處理、拆分或者合并的字段,即根據文件類型的字段個數來處理數據換行問題,非文件來源的按里面填寫的函數和參數來處理。
5.根據權利要求2所述的一種通用的文本數據處理方法,其特征在于,步驟三的具體過程為:
A、打開配置文件開始解析,每讀一行line,根據分隔符拆分,判斷分割數組長度是否和文件標題一致并且包含結尾符;
B、如果拆分長度不一致或者沒有發現結尾符,轉到A;
C、拆分長度一致并包含結尾符,加載輸出排序列表,根據字段對應的函數進行后期處理,然后根據文件記錄數約束寫入入庫數據文件和入庫控制文件。
6.根據權利要求1所述的一種通用的文本數據處理方法,其特征在于,對文件采集和處理過程進行監控時,按文件采集粒度對文件進行監控,按粒度來進行數據和文件大小比對,及時發現采集文件異常。
7.根據權利要求6所述的一種通用的文本數據處理方法,其特征在于,對文件采集和處理過程進行監控的具體過程為:
遍歷接口列表,根據時間粒度對前后文件的數量和記錄數進行比對,對有偏差的數據寫入告警文件;
當接口列表遍歷結束,生成所有采集接口報告,判斷告警文件大小,如果不為空,則根據配置對相應人員進行告警提醒。
8.根據權利要求7所述的一種通用的文本數據處理方法,其特征在于,有偏差的數據獲取并告警過程為:
首先獲取一個接口信息,根據接口編號讀取當前粒度文件日志;
檢查文件記錄數,等于0則寫入告警文件;
把當前粒度與上一粒度記錄進行比對,偏差過大則寫入告警文件;
統計當前粒度文件類型數與上一文件數,如果不相等則寫入告警文件。
9.根據權利要求8所述的一種通用的文本數據處理方法,其特征在于,所述粒度偏差是指采集數據文件大小偏差超過0.05~5%時,寫入告警文件。
10.根據權利要求7所述的一種通用的文本數據處理方法,其特征在于,遍歷接口列表的過程為:
根據接口ID,獲得當前的文件數,上一次采集時間和采集總數;
根據當前時間和上次采集時間對文件兩次同一類型文件采集的數量進行對比和計算;
如果當前采集總文件數為0,寫入告警文件;循環判斷每個類型文件大小異常情況,如果偏差大于0.05%,將相關信息寫入告警文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮通信信息系統有限公司,未經浪潮通信信息系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611094779.3/1.html,轉載請聲明來源鉆瓜專利網。





