[發明專利]混合云環境下含隱私數據的Spark任務的調度方法有效
| 申請號: | 202010323266.5 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111209091B | 公開(公告)日: | 2020-07-21 |
| 發明(設計)人: | 周穩;倪家彤 | 申請(專利權)人: | 南京南軟科技有限公司 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06F9/48;G06F9/50;G06F21/62;G06Q30/06;H04L29/08 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合 環境 隱私 數據 spark 任務 調度 方法 | ||
1.一種混合云環境下含隱私數據的Spark任務的調度方法,其特征在于,包括:
首先,確定Stage的子截止期;對任務打隱私標簽;其次,采用Stage排序策略,確定待調度任務序列;再次,采用數據聚集策略,對隱私數據進行聚集操作;最后,依次調度敏感任務集合和非敏感任務集合;調度敏感任務時,選擇私有云資源調度方法;調度非敏感任務集合時,根據私有云資源的可用區間和當前任務的預計執行時間,優先選擇在私有云中調度;如果私有云資源不足以滿足任務子截止期,則采用公有云租賃策略,從公有云中租賃滿足子截止期的資源;在確定各Stage的子截止期時,首先根據Stage在Spark應用中的位置,確定其距離起始節點的距離,即為該Stage所在的層次;
根據公式,計算每個Stage的子截止期;其中EFT(
初始化私有云資源的可用區間之后,采用Stage排序策略,確定待調度任務序列;包括如下步驟:
步驟s300,對用戶提交的應用進行調度;
步驟s301,將用戶提交的應用中的所有Job加入未處理Job列表;
步驟s302,判斷未處理Job列表中是否有Job,如果沒有Job,方法結束;如果有,轉步驟s303;
步驟s303,將未處理Job列表中前驅Job已完成或沒有前驅Job的加入待處理Job列表,并將其從未處理Job列表中刪除;
步驟s304,判斷待處理Job列表是否為空,如果為空,則轉步驟s302;如果不為空,轉步驟s305;
步驟s305,將待處理Job列表中包含的所有Stage加入未調度Stage列表;
步驟s306,判斷未調度Stage列表是否為空,如果為空,則轉步驟s302;否則,轉步驟s307;
步驟s307,將未調度列表中,前驅Stage已完成或沒有前驅Stage的Stage加入待調度Stage列表,并將其從未調度Stage列表刪除;
步驟s308,判斷待調度Stage列表是否為空,如果為空,轉步驟s306;否則轉步驟s309;
步驟s309,將待調度Stage列表中的所有Task加入待調度Task列表;
采用數據聚集策略,對隱私數據進行聚集操作,依次調度敏感任務集合和非敏感任務集合:
步驟s310,根據待調度Task列表中任務中的數據隱私情況,計算如果進行數據聚集操作,進行隱私數據聚集的時間;對于同屬一個Stage的Task,假設將其中分布在多個Task中的隱私數據聚集到少數幾個分片中,數據聚集的時間Cost即數據移動時花費的時間:Cost=d/bw,其中d表示需要傳輸的數據量,bw表示數據傳輸帶寬;
步驟s311,將進行隱私數據聚集時的任務調度時間與不進行隱私數據聚集時的任務調度時間進行比較,進行隱私數據聚集時的任務調度時間包括對隱私數據聚集時間和聚集后進行調度的時間,如果進行隱私數據聚集時的任務調度時間小于不進行隱私數據聚集時的任務調度時間,轉步驟s312;如果進行隱私數據聚集時的任務調度時間大于等于不進行隱私數據聚集時的任務調度時間,轉步驟s314;此步驟是在僅使用私有云資源且不改變已調度任務的前提下,計算模擬進行隱私數據聚集的任務調度時間和計算模擬不進行隱私數據聚集時的任務調度時間;
步驟s312,進行隱私數據聚集;
步驟s313,對任務進行再標簽,用于區分隱私數據和非隱私數據;
步驟s314,按照敏感型和非敏感型,將任務分成敏感任務隊列∏和非敏感任務隊列∏’;
步驟s315,判斷敏感任務隊列∏是否為空,如果為空,轉步驟s318;如果不為空,轉步驟s316;
步驟s316,取敏感任務隊列∏的首元素,在私有云環境下,分配資源;
步驟s317,更新私有云資源的可用區間列表;更新所在Stage的實際完工時間AFT;若所在Stage中所有Task完成調度,再更新后繼Stage的最早開始時間EST參數;將該任務從敏感任務隊列∏中移除;
步驟s318,判斷非敏感任務隊列∏’是否為空,如果為空,轉步驟s306;如果不為空,轉步驟s319;
步驟s319,取非敏感任務隊列∏’的首元素,在私有云環境下根據資源可用時間區間和任務的參數,分配資源;
步驟s320,判斷此次分配是否滿足該任務的子截止期約束;如果小于子截止期,在私有云上調度該任務,轉步驟s322;如果大于,轉步驟s321;
步驟s321,租賃公有云資源,分配該任務;
步驟s322,更新所在Stage的實際完工時間AFT;若其所在Stage中所有Task完成調度,再更新后繼Stage的最早開始時間EST參數;將已調度任務從非敏感任務隊列∏’刪除;轉s318。
2.如權利要求1所述的混合云環境下含隱私數據的Spark任務的調度方法,其特征在于,數據聚集操作是根據Stage中各任務隱私數據的分布情況,移動同一個Stage中的不同分片中的隱私數據,將隱私數據聚集到少數幾個分片中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京南軟科技有限公司,未經南京南軟科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010323266.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:開門裝置和堆垛機
- 下一篇:基于流計算的業務數據處理方法、裝置和計算機設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





