[發明專利]一種基于PySpark和Pandas融合的大數據時序分析方法有效
| 申請號: | 202011467348.3 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112612823B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 黃必棟 | 申請(專利權)人: | 南京鐵道職業技術學院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/27 |
| 代理公司: | 西安研創天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 陳明星 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pyspark pandas 融合 數據 時序 分析 方法 | ||
本發明公開了一種基于PySpark和Pandas融合的大數據時序分析方法,其使用Spark對大規模數據進行過濾、聚合等變換操作,通過降采樣方法把大規模時序數據轉化為小規模均勻等距時序數據,再使用PySpark的toPandas方法轉化為Pandas DataFrame,最后使用Pandas庫提供的時序分析算法進行時序分析。實際應用中具有較好的運行效率和性能。
技術領域
本發明屬于大數據分析技術領域,具體涉及一種基于PySpark和Pandas融合的大數據時序分析方法。
背景技術
Python和R語言是數據分析中的主流編程語言,由于Python的Pandas庫的流行,Python成為數據分析的熱門編程語言。使用Pandas進行數據分析適用于單機小規模數據分析場景,無法適應大規模數據處理和計算要求。Spark則是大數據處理和迭代計算的主流計算平臺,支持Python語言,PySpark即是SparkAPI的Python語言接口。
原生的Spark在時序分析方面提供了較少的時序分析功能和算法,雖然第三方庫spark-timeseries提供了基于Spark時間序列分析算法庫,但是其從功能和生態上看并不及Pandas庫的時間序列分析模塊。而Pandas庫只適用于單機小規模數據量的處理,無法運行于分布式系統環境中以處理大規模數據。
隨著信息化產業的不斷發展,大型流程工業企業在生產信息化過程中會產生越來越多的海量歷史時序數據。因此對時序數據的處理規模、處理速度提出了更高的要求。但是目前的大數據處理的主流平臺Spark在時序分析上提供了較粗粒度和有限的時序分析方法,而當前主流的時序分析庫Pandas雖然提供了豐富的時序分析算法工具包,但是只能單機運行,無法適應大規模時序數據的處理。因此,如何高效的對大規模數據應用時序分析算法進行時序分析是目前亟待解決的問題。
發明內容
針對上述存在的問題,本發明提供一種基于PySpark和Pandas融合的大數據時序分析方法,使用PySpark結合Pandas進行時序分析,提高大數據分析效率。
實現本發明目的的技術解決方案為:
一種基于PySpark和Pandas融合的大數據時序分析方法,其特征在于,包括以下步驟:
步驟1:通過數據采集模塊抓取來海量數據;
步驟2:利用Spark對海量數據進行補全、統一時間字段等格式標準化操作,得到大規模時序數據。
步驟3:通過過濾、聚合等變換操作把大規模時序數據降采樣為小規模均勻等距時序數據;
步驟4:基于PySpark將得到的小規模均勻等距時序數據轉化為Pandas數據;
步驟5:利用Pandas庫中的時序分析函數對得到的Pandas數據進行時序分析,從而得到時序數據。
進一步地,步驟3的具體操作步驟包括:
步驟31:待處理時序數據中的每條記錄均為事件記錄信息,其包括編號id、時間戳timestamp、事件名event以及相應的時間值value;
步驟32:通過時間范圍(t_start,t_end)和事件名篩選出事件A對應的SparkDataFrame df_A;
步驟33:為df_A添加粗粒度時間點列new_time,并對此列進行分組,使用均值函數avg對value列進行聚合計算;
步驟34:根據時間范圍(t_start,t_end)和采樣粒度生成采樣時間點DataFramets_df;
步驟35:通過ts_df和df_new_time進行左外連接,對缺失時間點進行補全,并且缺失時間點的value值設為0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京鐵道職業技術學院,未經南京鐵道職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011467348.3/2.html,轉載請聲明來源鉆瓜專利網。





