[發明專利]在Spark平臺順序切分數據的方法及裝置在審
| 申請號: | 202010540731.0 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111737347A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 饒彭彥 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/22;G06F16/2458 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;湯在彥 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | spark 平臺 順序 切分 數據 方法 裝置 | ||
本發明公開了一種在Spark平臺順序切分數據的方法及裝置,該方法包括:獲取時序數據的數據集在Spark平臺的分布信息;獲取預先根據預設的所述時序數據中的目標數據段確定出的第一數據切分點和第二數據切分點;根據所述分布信息分別確定所述第一數據切分點和所述第二數據切分點的二維數據集坐標;根據所述二維數據集坐標確定所述數據集中所述第一數據切分點與所述第二數據切分點之間的數據,生成所述目標數據段對應的數據集。本發明提供了一種在Spark平臺的較低內存及網絡消耗的數據集切分方法。
技術領域
本發明涉及Spark平臺,具體而言,涉及一種在Spark平臺順序切分數據的方法及裝置。
背景技術
金融時序數據是指金融隨機變量按時間先后順序所取的值。金融時序數據有著獨特的統計特征,如波動集群行、杠桿效應。為了能夠很好地刻畫金融時序數據的統計特征,對金融時序數據進行合理的統計建模是非常重要的。而在統計建模前,需要對金融時序數據進行一系列的數據處理,按照時間順序切分數據便是其中一種處理方式,按照時間順序切分數據為從金融時序數據中截取出想要的一段或多段數據。
Apache Spark是一個用于大規模數據處理的分析引擎,用來構建大型的、低延遲的數據分析應用程序。高效地支撐多種計算模式,包括交互式查詢和流處理。Spark平臺將數據抽象為彈性分布式數據集(RDD),并將數據集分布在集群的多臺機器上,使得多臺機可以同時對數據進行相同的操作,實現數據的并行處理。
彈性分布式數據集(RDD)是一個只讀的、可分布在集群中多個節點的數據集,這個數據集的全部或部分內容可以緩存在內存中,在多次計算之間重用。每個RDD被分為多個分區、存在于集群中不同節點上,便于在不同節點進行并行計算,RDD提供了一個高度受限的內存共享模型,不能對其進行修改。當內存不足時,則會將RDD保存磁盤中。
現有技術中,使用并行計算的Spark平臺只提供隨機切分數據的功能,無法按數據順序切分數據,因此在Spark平臺難以實現對時序數據按照順序進行數據切分。
發明內容
本發明為了解決上述背景技術中的至少一個技術問題,提出了一種在Spark平臺順序切分數據的方法及裝置。
為了實現上述目的,根據本發明的一個方面,提供了一種在Spark平臺順序切分數據的方法,該方法包括:
獲取時序數據的數據集在Spark平臺的分布信息,其中,所述分布信息包括:所述數據集的各分區的分區編號以及所述各分區各自對應的數據數量;
獲取預先根據預設的所述時序數據中的目標數據段確定出的第一數據切分點和第二數據切分點;
根據所述分布信息分別確定所述第一數據切分點和所述第二數據切分點的二維數據集坐標,其中,所述二維數據集坐標中的第一坐標用于表示數據切分點所在分區的分區編號,所述二維數據集坐標中的第二坐標用于表示數據切分點在分區中的數據序號;
根據所述二維數據集坐標確定所述數據集中所述第一數據切分點與所述第二數據切分點之間的數據,生成所述目標數據段對應的數據集。
可選的,所述根據所述二維數據集坐標確定所述數據集中所述第一數據切分點與所述第二數據切分點之間的數據,包括:
將時序數據的數據集存儲在每個分區的數據與所述二維數據集坐標進行對比,得到所述數據集中所述第一數據切分點與所述第二數據切分點之間的數據。
可選的,所述根據所述二維數據集坐標確定所述數據集中所述第一數據切分點與所述第二數據切分點之間的數據,包括:
確定時序數據的數據集中每個數據的二維坐標,其中,所述二維坐標中的兩個坐標用于表示數據所在分區的分區編號和數據在分區中的數據序號;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010540731.0/2.html,轉載請聲明來源鉆瓜專利網。





