[發(fā)明專利]混合云環(huán)境下含隱私數據的Spark任務的調度方法有效
| 申請?zhí)枺?/td> | 202010323266.5 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111209091B | 公開(公告)日: | 2020-07-21 |
| 發(fā)明(設計)人: | 周穩(wěn);倪家彤 | 申請(專利權)人: | 南京南軟科技有限公司 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06F9/48;G06F9/50;G06F21/62;G06Q30/06;H04L29/08 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合 環(huán)境 隱私 數據 spark 任務 調度 方法 | ||
本發(fā)明公開了一種混合云環(huán)境下含隱私數據的Spark任務的調度方法,首先,確定Stage的子截止期;對任務打隱私標簽。其次,采用Stage排序策略,確定待調度任務序列。再次,采用數據聚集策略,對隱私數據進行聚集操作。最后,依次調度敏感任務集合和非敏感任務集合。調度敏感任務時,選擇合適的私有云資源調度方法,確定調度方案;調度非敏感任務集合時,根據私有云資源的可用區(qū)間和當前任務的預計執(zhí)行時間,優(yōu)先選擇在私有云中調度;如果私有云資源不足以滿足任務子截止期,則采用公有云租賃策略,從公有云中租賃滿足子截止期的資源。本發(fā)明最小化租賃成本和保證數據的隱私性。
技術領域
本發(fā)明涉及一種混合云環(huán)境下含隱私數據的Spark任務的調度方法,屬于云計算資源調度技術領域。
背景技術
混合云是私有云與公有云資源的組合,在私有云資源不足以滿足當前所處理任務的約束時,可通過租賃公有云資源的方式擴充計算資源,更符合企業(yè)資源使用的實際情況。然而,混合云環(huán)境面臨著安全和隱私問題。對于含隱私數據的任務,由于公有云環(huán)境并不提供可靠性保證,因此并不提倡將隱私數據直接放到公有云環(huán)境執(zhí)行。因此,如何在混合云環(huán)境下實現(xiàn)隱私數據保護已成為工業(yè)界關注的重要問題。
目前在云計算環(huán)境下解決含隱私數據的任務處理主要有以下幾種方式:1)任務只在私有云環(huán)境下處理。由于私有資源計算能力的局限性,該種方式往往不能保證任務執(zhí)行時間,可能會違反應用的截止期約束。2)數據加密。在將數據交由云計算資源處理前,對數據進行加密操作。3)數據分割。將數據按隱私數據和非隱私數據分為兩部分,隱私數據和相關操作僅在私有云上執(zhí)行。這種方式可在充分利用私有云資源的前提下,通過租賃公有云資源以執(zhí)行非隱私數據的相關操作,從而滿足用戶的資源請求和QoS 約束。
對于大數據處理平臺方面,面對日益增長的數據量和快速處理的要求,Spark處理平臺具有良好的處理性能。Spark基于MapReduce發(fā)展而來,提供了一個分布式計算平臺,能夠快速、高效、容錯和可伸縮地處理大型、復雜和海量的數據。Spark基于內存進行計算,其通過將所有需要處理的數據劃分成RDD(彈性式分布數據集),完成用戶提交的應用程序(Application)。
在使用Spark處理平臺進行大數據計算時,由于Spark本身調度方法的局限性,沒有考慮含隱私數據的任務的調度方法。
發(fā)明內容
發(fā)明目的:針對現(xiàn)有技術中存在的問題與不足,區(qū)別于Spark中默認調度方法,本發(fā)明提供一種混合云環(huán)境下含隱私數據的Spark任務的調度方法,本發(fā)明考慮用戶提交數據的隱私性,在調度過程中通過考慮任務的隱私性,增加隱私數據聚集的操作,實現(xiàn)降低應用完工時間和降低資源租賃成本。有效調度混合云資源,最小化租賃成本,保證用戶投資和用戶數據的隱私。
技術方案:一種混合云環(huán)境下含隱私數據的Spark任務的調度方法,首先,確定Stage(任務)的子截止期;對任務打隱私標簽;其次,采用Stage排序策略,確定待調度任務序列;再次,采用數據聚集策略,對隱私數據進行聚集操作;最后,依次調度敏感任務集合和非敏感任務集合;調度敏感任務時,選擇私有云資源調度方法;調度非敏感任務集合時,根據私有云資源的可用區(qū)間和當前任務的預計執(zhí)行時間,優(yōu)先選擇在私有云中調度;如果私有云資源不足以滿足任務子截止期,則采用公有云租賃策略,從公有云中租賃滿足子截止期的資源。該方法包括以下步驟:
步驟1,確定任務的子截止期。根據用戶提交的截止期約束和云環(huán)境中虛擬機資源的執(zhí)行速度以及Job、Stage間的拓撲順序,確定每個Stage的子截止期。初始化私有云中資源的可用區(qū)間。初始化任務的最早開始時間,最晚開始時間,最早結束時間,最晚結束時間參數。
步驟2,判斷未調度Job隊列是否為空;如果為空,則結束方法;否則轉步驟3;
步驟3,通過對用戶提交的應用進行排序選擇,得到待調度Task集合。
步驟4,調度待調度Task集合中的Task;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京南軟科技有限公司,未經南京南軟科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010323266.5/2.html,轉載請聲明來源鉆瓜專利網。
- 環(huán)境服務系統(tǒng)以及環(huán)境服務事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調整系統(tǒng)、環(huán)境調整方法及環(huán)境調整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數據處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現(xiàn)方法、數據發(fā)送裝置及數據再現(xiàn)裝置
- 數據發(fā)送方法、數據再現(xiàn)方法、數據發(fā)送裝置及數據再現(xiàn)裝置





