[發明專利]一種交易平臺數據處理方法在審
| 申請號: | 201611109700.X | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN108153789A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 安西民;吳方才;徐鳳桐 | 申請(專利權)人: | 航天星圖科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02;G06Q40/04 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 101399 北京市順義區國*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 交易平臺 數據處理 數據交易 數據處理系統 數據收集單元 互聯網交易 中間存儲器 準確度 清洗處理 數據倉庫 數據清洗 數據缺失 數據收集 自動數據 定制化 客戶機 填充 工作量 自動化 | ||
本發明涉及一種交易平臺數據處理方法,該方法應用于交易平臺數據處理系統中,該系統包括多個互聯網交易平臺,多個數據收集單元,中間存儲器,數據清洗平臺,數據倉庫,客戶機;該交易平臺數據處理方法能夠針對不同的數據交易平臺作定制化的數據收集和清洗處理,能夠基于同一/全部交易平臺數據進行數據缺失補全,提高了數據補全的準確度和自動數據填充的比率,減少了人為參與的工作量,提高了自動化程度,從而能夠為數據交易平臺數據處理提供有力保障。
【技術領域】
本發明屬于數據處理領域,尤其涉及交易平臺數據處理方法。
【背景技術】
供貨商可以通過多個互聯網交易平臺發布產品信息,而買家可以從互聯網交易平臺中獲取信息,并通過產品供貨商所發布的信息可以聯系到產品供貨商進行購買;在這一過程中,就涉及到大量數據的處理。但是,由于每個互聯網交易平臺對信息的表述方式不盡相同,從而給信息整合帶來了一定的困難。另外,同一個供貨商去不同的互聯網交易平臺發布同一個產品可能會出現不同的表現形式,其會造成這些互聯網產品交易平臺上使用數據爬蟲獲取數據,進而會產生很多重復數據,因此,針對來自不同互聯網數據源的、表述形式不一樣的產品數據進行重復數據的清洗是非常有必要的,其是通過機器判斷是否有重復數據的重要保障。
現有技術中的數據清洗方法都比較簡單,不能針對同時針對多個數據交易平臺作并行的數據采集,也沒有考慮各個不同的數據交易平臺之間的差異來進行定制化的處理,自動數據補全的方法相對簡單導致自動化程度不高;基于上述諸多問題,現在亟需一種新的交易平臺數據處理方法,能夠針對不同的數據交易平臺作定制化的數據收集和清洗處理,能夠針對同一/全部交易平臺數據進行數據缺失補全,提高了數據補全的準確度和自動數據填充的比率,減少了人為參與的工作量,提高了自動化程度,從而能夠為數據交易平臺數據處理提供有力保障。
【發明內容】
為了解決現有技術中的上述問題,本發明提出了一種交易平臺數據處理方法,其特征在于,該方法包括如下步驟:
步驟1:數據收集單元基于針對互聯網交易平臺的采集策略通過互聯網進行數據收集;
步驟2:中間存儲器保存來自不同互聯網交易平臺的數據;
步驟3:數據清洗平臺對數據集合中的所有數據進行格式內容的標準化處理;
步驟4:數據清洗平臺去除數據記錄中存在的明顯不合理字段值和一條數據記錄中存在明顯矛盾的字段值。
步驟5:數據清洗平臺將處理后的數據集合保存到數據倉庫中;
步驟6:客戶機訪問數據倉庫獲取所需數據;
進一步的,基于數據清洗平臺的請求將特定數據收集單元采集的匹配所請求序列編號的數據集合通過中間存儲器發送給數據清洗平臺。
進一步的,中間存儲器中為每個數據收集單元分配獨立的存儲區域。
進一步的,同一數據收集單元采集的數據集合按照采集序列編號的順序保存在同一存儲區域中。
進一步的,在數據收集單元對其對應存儲區域進行存儲時,如果該存儲區域用盡,則判斷位于存儲區域頭部的數據集合對應的序列編碼是否已經無效,如果是,則直接從該頭部區域開始存儲,覆蓋該無效序列編碼對應的數據集合,如果否,則向中間存儲器申請臨時存儲區域進行存儲,在申請臨時存儲區域失敗的情況下,暫停針對當次序列編號的數據集合的存儲。
進一步的,當序列編碼對應的數據集合過了保留時間期限后則標記為無效。
進一步的,序列編號隨著采集次數的增加而增加。
進一步的,該臨時存儲區域在物理上鄰接該存儲區域;。
進一步的,中間存儲器為存儲器集群。
進一步的,中間存儲器允許多個設備發起的并行數據訪問。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天星圖科技(北京)有限公司,未經航天星圖科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611109700.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頁面信息個性化處理方法、裝置及系統
- 下一篇:一種本地文件監控方法及裝置





