[發(fā)明專利]一種基于PySpark和Pandas融合的大數據時序分析方法有效
| 申請?zhí)枺?/td> | 202011467348.3 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112612823B | 公開(公告)日: | 2022-07-19 |
| 發(fā)明(設計)人: | 黃必棟 | 申請(專利權)人: | 南京鐵道職業(yè)技術學院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/27 |
| 代理公司: | 西安研創(chuàng)天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 陳明星 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pyspark pandas 融合 數據 時序 分析 方法 | ||
1.一種基于PySpark和Pandas融合的大數據時序分析方法,其特征在于,包括以下步驟:
步驟1:通過數據采集模塊抓取來海量數據;
步驟2:利用Spark對海量數據進行補全、統(tǒng)一時間字段格式標 準化操作,得到大規(guī)模時序數據;
步驟3:通過過濾、聚合變換操作把大規(guī)模時序數據降采樣為小規(guī)模均勻等距時序數據;
步驟4:基于PySpark將得到的小規(guī)模均勻等距時序數據轉化為Pandas數據;
步驟5:利用Pandas庫中的時序分析函數對得到的Pandas數據進行時序分析,從而得到時序數據;
所述步驟3的具體操作步驟包括:
步驟31:待處理時序數據中的每條記錄為事件記錄信息,其包括編號id、時間戳timestamp、事件名event以及相應的值value;
步驟32:通過時間范圍(t_start,t_end)和事件名篩選出事件A對應的SparkDataFrame df_A;
步驟33:為df_A添加粗粒度時間點列new_time,并對此列進行分組,使用均值函數avg對value列進行聚合計算;
步驟34:根據時間范圍(t_start,t_end)和采樣粒度生成采樣時間點DataFrame ts_df;
步驟35:通過ts_df和df_new_time進行左外連接,對缺失時間點進行補全,并且缺失時間點的value值設為0;
步驟36:最終得到事件A在(t_start,t_end)時間范圍內的時序數據[tm,value],其中,tm為粗粒度時間點,value為粗粒度時間間隔內的相應值的均值。
2.根據權利要求1所述的一種基于PySpark和Pandas融合的大數據時序分析方法,其特征在于,步驟4所述的轉化方法為:使用PySpark中的toPandas方法將Spark DataFrame轉換為Pandas DataFrame。
3.根據權利要求2所述的一種基于PySpark和Pandas融合的大數據時序分析方法,其特征在于,步驟5的具體操作步驟為:根據得到的Pandas DataFrame設置時間字段,再利用Pandas中的時序分析函數得到Pandas時序數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京鐵道職業(yè)技術學院,未經南京鐵道職業(yè)技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011467348.3/1.html,轉載請聲明來源鉆瓜專利網。





