[發明專利]數據處理方法及裝置在審
| 申請號: | 201710106220.6 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN108509447A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 嚴波 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 待處理數據 數據處理 數據處理操作 算法標識信息 指令 數據處理效率 信息技術領域 從配置文件 代碼編寫 工作量 攜帶 | ||
本發明公開了一種數據處理方法及裝置,涉及信息技術領域,解決了當存在多組待處理數據時需要分別對各組數據進行代碼編寫而造成的工作量較大,從而導致數據處理效率較低的問題,所述方法包括:首先獲取攜帶有算法標識信息的待處理數據;然后從配置文件中提取與所述算法標識信息對應的數據處理操作指令;再根據所述數據處理操作指令,對所述待處理數據進行處理。本發明適用于數據處理。
技術領域
本發明涉及信息技術領域,尤其涉及一種數據處理方法及裝置。
背景技術
近些年來,隨著互聯網的快速發展,大數據的應用越來越廣泛,Spark是一種大數據分布式編程框架,用戶可以通過spark分布式處理平臺實現快速集群計算。而SparkDataframe(Spark數據框)是spark中的一種數據結構,能夠提供豐富的API(ApplicationProgramming Interface,應用程序編程接口),因而用戶可以使用Dataframe進行多種數據處理。
目前,在通過Dataframe進行數據處理時,每次都需要通過人工方式,根據相應數據處理算法分別對每組數據編寫代碼,并重新打包后提交到spark分布式處理平臺進行數據處理,大量重復的工作使得數據處理過程中的工作量增加,影響了數據處理的效率。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的數據處理方法及裝置。
為了達到上述目的,本發明主要提供如下技術方案:
一方面,本發明提供了一種數據處理方法,該方法包括:
獲取攜帶有算法標識信息的待處理數據;
從配置文件中提取與所述算法標識信息對應的數據處理操作指令;
根據所述數據處理操作指令,對所述待處理數據進行處理。
可選的,所述配置文件中還包含有與各個待處理數據來源分別對應的數據獲取操作指令,所述獲取攜帶有算法標識信息的待處理數據之前,所述方法還包括:
接收數據處理請求,所述數據處理請求中包含有所述待處理數據來源位置信息;
從配置文件中提取與所述待處理數據來源位置信息對應的數據獲取操作指令;
所述獲取攜帶有算法標識信息的待處理數據包括:
根據所述數據獲取操作指令,從相應的數據來源位置獲取攜帶有算法標識信息的待處理數據。
可選的,所述根據所述數據獲取操作指令,從相應的數據來源位置獲取攜帶有算法標識信息的待處理數據之后,所述方法還包括:
調用與所述數據來源位置信息對應的預置接口;
通過所述預置接口中的預置數據結構轉換關系,將所述待處理數據轉換為預置數據框結構的數據。
可選的,所述數據處理操作指令為join連接、聚合運算,結構化查詢語言sql分析中的一種或多種。
可選的,所述根據所述數據處理操作指令,對所述待處理數據進行處理之后,所述方法還包括:
將處理后的數據進行輸出并保存在預置存儲區域內。
另一方面,本發明提供了一種數據處理裝置,該裝置包括:
獲取單元,用于獲取攜帶有算法標識信息的待處理數據;
提取單元,用于從配置文件中提取與所述算法標識信息對應的數據處理操作指令;
處理單元,用于根據所述數據處理操作指令,對所述待處理數據進行處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710106220.6/2.html,轉載請聲明來源鉆瓜專利網。





