[發明專利]一種基于雙消息隊列的數據治理方法在審
| 申請號: | 201810687548.6 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN109145040A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 張寶華;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/215;G06F16/2455 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 蔣常雪 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 消息隊列 數據治理 治理 提取數據 結果存入結果 伸縮性 預處理 預處理操作 可用性 插入消息 流式處理 數據安全 數據處理 數據接入 數據資源 用戶數據 整體優化 緩沖 隊列 清洗 數據庫 環節 | ||
1.一種基于雙消息隊列的數據治理方法,其特征在于:所述方法從數據源接入數據后,將數據放入消息隊列,接著對消息隊列中的數據進行預處理操作,然后將預處理后的數據一方面存入數據庫作為備份,另一方面將處理后的數據再次存入消息隊列供數據治理工具消費。
2.根據權利要求1 所述的一種基于雙消息隊列的數據治理方法,其特征在于,所述方法包括以下步驟:
1)通過數據接入工具從用戶數據源輸入數據;
2)將接入的數據資源存入消息隊列;
3)數據治理程序從消息隊列中提取數據進行預處理操作;
4)數據治理程序將預處理后的數據再次存入消息隊列;
5)各種數據治理程序分別從消息隊列中提取數據進行治理,然后將治理結果再次存入消息隊列;
6)最后一個治理程序從消息隊列中提取數據,完成治理后將治理結果存入結果數據庫,供后續的流程使用。
3.根據權利要求1或2所述的一種基于雙消息隊列的數據治理方法,其特征在于:所述消息隊列為kafka集群。
4.根據權利要求2所述的一種基于雙消息隊列的數據治理方法,其特征在于:所述步驟1)接入數據后,對數據進行數據格式標準化, 數據格式標準化包括:字段校驗、補齊、數據歸屬。
5.根據權利要求2 所述的一種基于雙消息隊列的數據治理方法,其特征在于:所述步驟3)中,所述預處理為數據清洗,區分新聞數據和社交數據,數據的清洗包括:數據格式校驗、補齊,URL去重,亂碼識別過濾,語言識別,域名分析和填充,文本內容中js腳本處理,時間合法性校驗,正文內容缺失、URL缺失、發布時間缺失、作者缺失處理。
6.根據權利要求5 所述的一種基于雙消息隊列的數據治理方法,其特征在于:對缺失字段,根據其是必填屬性還是選填屬性來選擇不同的處理方法,若必填屬性的字段缺失則直接丟棄該數據至錯誤文件,若選填屬性的字段缺失則將其補充為空。
7.根據權利要求6 所述的一種基于雙消息隊列的數據治理方法,其特征在于:所述字段中正文內容、URL、發布時間為必填字段,作者為選填字段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810687548.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于聯邦制工作流集成的UI橋接的方法
- 下一篇:一種數據訪問方法及系統





