[發(fā)明專利]一種數(shù)據清洗方法、服務器及計算機可讀存儲介質有效
| 申請?zhí)枺?/td> | 201910163985.2 | 申請日: | 2019-03-05 |
| 公開(公告)號: | CN110046151B | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設計)人: | 張森 | 申請(專利權)人: | 努比亞技術有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 深圳協(xié)成知識產權代理事務所(普通合伙) 44458 | 代理人: | 章小燕 |
| 地址: | 518057 廣東省深圳市南山區(qū)高新區(qū)北環(huán)大道9018*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據 清洗 方法 服務器 計算機 可讀 存儲 介質 | ||
本發(fā)明公開了一種數(shù)據清洗方法,所述方法包括:接收數(shù)據清洗條件,其中,所述數(shù)據清洗條件包括時間區(qū)間、事件信息和事件條件;將所述時間區(qū)間劃分為至少兩個時間子區(qū)間;獲取每個時間子區(qū)間內,所述事件信息的預清洗數(shù)據;統(tǒng)計所述至少兩個時間子區(qū)間內,所述事件信息的預清洗數(shù)據;根據所述事件條件對所述統(tǒng)計的預清洗數(shù)據進行篩選,得到數(shù)據清洗結果。本發(fā)明還公開一種服務器及計算機可讀存儲介質。通過上述方案,針對每個時間子區(qū)間分別獲取事件信息的預清洗數(shù)據,對于已經存在所述事件信息的預清洗數(shù)據的時間子區(qū)間,不需要進行重復清洗,從而能夠有效減小數(shù)據清洗的任務量,減小數(shù)據清洗的耗時,避免出現(xiàn)因數(shù)據清洗造成服務器卡頓的情況。
技術領域
本發(fā)明涉及通信技術領域,尤其涉及一種數(shù)據清洗方法、服務器及計算機可讀存儲介質。
背景技術
隨著電子技術的不斷發(fā)展,移動終端(例如智能手機、平板電腦等)的功能越來越強大,在人們的工作及生活中扮演著不可或缺的角色。移動終端通過安裝各種各樣的應用程序實現(xiàn)不同的功能,目前,許多應用程序都是通過訪問應用程序對應的服務器實現(xiàn)其功能,服務器中存儲有所述應用程序的相關信息。當應用程序的開發(fā)人員需要用戶使用應用程序的一些習慣或記錄時,可以從服務器中獲取相應的信息。
服務器中存儲的用戶數(shù)據包括屬性表(tb_profile)和事件表(tb_events),屬性表中,新的屬性數(shù)據會覆蓋歷史屬性數(shù)據(例如性別、使用的移動終端型號等),因此屬性表僅包括用戶最新的屬性信息,屬性表中的每一條記錄表示一位用戶及其屬性信息。而事件表包括的是用戶的行為數(shù)據(例如應用程序的每一次登錄、通過應用程序的每一次分享等),事件表中的每一條記錄表示一位用戶在某一時刻所產生的行為,不存在新舊數(shù)據覆蓋的現(xiàn)象。即使應用程序的用戶量沒有增長,隨著時間的增長,數(shù)據記錄的時間范圍增大,事件表的數(shù)據量也會不斷增加。
當應用程序的開發(fā)人員需要清洗相同事件的不同時間區(qū)間的數(shù)據時,每一次均需要遍歷事件表中需要清洗的時間區(qū)間內的所有數(shù)據。然而,當時間區(qū)間較大時,清洗數(shù)據的操作會耗費大量的時間,甚至會造成服務器卡頓。
可見,現(xiàn)有技術中的數(shù)據清洗方式耗時較長,容易造成服務器卡頓。
發(fā)明內容
有鑒于此,本發(fā)明提出一種數(shù)據清洗方法、服務器及計算機可讀存儲介質,以解決上述技術問題。
首先,為實現(xiàn)上述目的,本發(fā)明提出一種數(shù)據清洗方法,應用于服務器,所述方法包括:
接收數(shù)據清洗條件,其中,所述數(shù)據清洗條件包括時間區(qū)間、事件信息和事件條件;
將所述時間區(qū)間劃分為至少兩個時間子區(qū)間;
獲取每個時間子區(qū)間內,所述事件信息的預清洗數(shù)據;
統(tǒng)計所述至少兩個時間子區(qū)間內,所述事件信息的預清洗數(shù)據;
根據所述事件條件對所述統(tǒng)計的預清洗數(shù)據進行篩選,得到數(shù)據清洗結果。
可選地,所述將所述時間區(qū)間劃分為至少兩個時間子區(qū)間之前,所述方法還包括:
確定所述時間區(qū)間的劃分粒度;
所述將所述時間區(qū)間劃分為至少兩個時間子區(qū)間,包括:
根據所述劃分粒度將所述時間區(qū)間劃分為至少兩個時間子區(qū)間。
可選地,所述獲取每個時間子區(qū)間內,所述事件信息的預清洗數(shù)據,包括:
在時間子區(qū)間內,根據所述事件信息對事件表進行預清洗,得到所述時間子區(qū)間內所述事件信息的預清洗數(shù)據。
可選地,所述在時間子區(qū)間內,根據所述事件信息對事件表進行預清洗,得到所述時間子區(qū)間內所述事件信息的預清洗數(shù)據之前,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于努比亞技術有限公司,未經努比亞技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910163985.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數(shù)據顯示系統(tǒng)、數(shù)據中繼設備、數(shù)據中繼方法、數(shù)據系統(tǒng)、接收設備和數(shù)據讀取方法
- 數(shù)據記錄方法、數(shù)據記錄裝置、數(shù)據記錄媒體、數(shù)據重播方法和數(shù)據重播裝置
- 數(shù)據發(fā)送方法、數(shù)據發(fā)送系統(tǒng)、數(shù)據發(fā)送裝置以及數(shù)據結構
- 數(shù)據顯示系統(tǒng)、數(shù)據中繼設備、數(shù)據中繼方法及數(shù)據系統(tǒng)
- 數(shù)據嵌入裝置、數(shù)據嵌入方法、數(shù)據提取裝置及數(shù)據提取方法
- 數(shù)據管理裝置、數(shù)據編輯裝置、數(shù)據閱覽裝置、數(shù)據管理方法、數(shù)據編輯方法以及數(shù)據閱覽方法
- 數(shù)據發(fā)送和數(shù)據接收設備、數(shù)據發(fā)送和數(shù)據接收方法
- 數(shù)據發(fā)送裝置、數(shù)據接收裝置、數(shù)據收發(fā)系統(tǒng)、數(shù)據發(fā)送方法、數(shù)據接收方法和數(shù)據收發(fā)方法
- 數(shù)據發(fā)送方法、數(shù)據再現(xiàn)方法、數(shù)據發(fā)送裝置及數(shù)據再現(xiàn)裝置
- 數(shù)據發(fā)送方法、數(shù)據再現(xiàn)方法、數(shù)據發(fā)送裝置及數(shù)據再現(xiàn)裝置





