[發明專利]離線數據處理方法、裝置、電子設備和計算機可讀介質在審
| 申請號: | 202011604530.9 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112579326A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 張文選;史忠偉 | 申請(專利權)人: | 北京五八信息技術有限公司 |
| 主分類號: | G06F9/54 | 分類號: | G06F9/54;G06F16/182;G06F16/27 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100080 北京市海淀區學清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 離線 數據處理 方法 裝置 電子設備 計算機 可讀 介質 | ||
本公開的實施例公開了離線數據處理方法、裝置、電子設備和計算機可讀介質。該方法的一具體實施方式包括:根據分布式消息系統訂閱信息,從分布式消息系統中獲取預先過濾的離線數據,其中,上述分布式消息系統訂閱信息用于指示上述預先過濾的離線數據在上述分布式消息系統中的存儲位置;對上述預先過濾的離線數據進行格式統一處理,得到目標格式的離線數據;對上述目標格式的離線數據進行內容修正處理,得到與在線數據的內容一致的修正數據。該實施方式無需針對每個業務執行定制化的離線數據處理任務,提高了離線數據處理的業務邏輯的復用性。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及離線數據處理方法、裝置、電子設備和計算機可讀介質。
背景技術
離線數據是指業務上線之后所產生的歷史業務數據,可以是登錄日志、訪問日志等等。目前,在對離線數據進行處理時,通常采用的方式為:通過分布式文件系統的映射-規約編程模型(例如,MapReduce)或通用的計算引擎(例如,Spark)對離線數據進行處理。
然而,當采用上述方式對離線數據進行處理時,經常會存在如下技術問題:需要針對每個業務執行定制化的離線數據處理任務,導致離線數據處理的業務邏輯的復用性較差。
發明內容
本公開的內容部分用于以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。本公開的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
本公開的一些實施例提出了離線數據處理方法、裝置、電子設備和計算機可讀介質,來解決以上背景技術部分提到的技術問題中的一項或多項。
第一方面,本公開的一些實施例提供了一種離線數據處理方法,該方法包括:根據分布式消息系統訂閱信息,從分布式消息系統中獲取預先過濾的離線數據,其中,上述分布式消息系統訂閱信息用于指示上述預先過濾的離線數據在上述分布式消息系統中的存儲位置;對上述預先過濾的離線數據進行格式統一處理,得到目標格式的離線數據;對上述目標格式的離線數據進行內容修正處理,得到與在線數據的內容一致的修正數據。
第二方面,本公開的一些實施例提供了一種離線數據處理裝置,裝置包括:獲取單元,被配置成根據分布式消息系統訂閱信息,從分布式消息系統中獲取預先過濾的離線數據,其中,上述分布式消息系統訂閱信息用于指示上述預先過濾的離線數據在上述分布式消息系統中的存儲位置;格式統一處理單元,被配置成對上述預先過濾的離線數據進行格式統一處理,得到目標格式的離線數據;內容修正處理單元,被配置成對上述目標格式的離線數據進行內容修正處理,得到與在線數據的內容一致的修正數據。
第三方面,本公開的一些實施例提供了一種電子設備,包括:一個或多個處理器;存儲裝置,其上存儲有一個或多個程序,當一個或多個程序被一個或多個處理器執行,使得一個或多個處理器實現上述第一方面任一實現方式所描述的方法。
第四方面,本公開的一些實施例提供了一種計算機可讀介質,其上存儲有計算機程序,其中,程序被處理器執行時實現上述第一方面任一實現方式所描述的方法。
本公開的上述各個實施例具有如下有益效果:首先,根據分布式消息系統訂閱信息,從分布式消息系統中獲取預先過濾的離線數據,其中,上述分布式消息系統訂閱信息用于指示上述預先過濾的離線數據在上述分布式消息系統中的存儲位置。從而,可以從分布式消息系統中獲取需要進一步處理的預先過濾的離線數據。然后,對上述預先過濾的離線數據進行格式統一處理,得到目標格式的離線數據。從而,將預先過濾的離線數據的格式轉換為統一的數據格式,便于統一的處理。最后,對上述目標格式的離線數據進行內容修正處理,得到與在線數據的內容一致的修正數據。從而,可以使得作為歷史數據的離線數據的內容保持與在線數據一致,進而便于后續對離線數據的使用。由此,本公開實現了對不同的業務場景下的離線數據的統一處理,無需針對每個業務執行定制化的離線數據處理任務。從而,提高了離線數據處理的業務邏輯的復用性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京五八信息技術有限公司,未經北京五八信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011604530.9/2.html,轉載請聲明來源鉆瓜專利網。





