[發明專利]一種混合云環境面向時延優化的科學工作流數據布局方法有效
| 申請號: | 201810700970.0 | 申請日: | 2018-08-24 |
| 公開(公告)號: | CN108989098B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 林兵;項滔;盧宇;黃志高;陳星;郭文忠;蔡飛雄 | 申請(專利權)人: | 福建師范大學 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08;G06N3/12 |
| 代理公司: | 福州君誠知識產權代理有限公司 35211 | 代理人: | 戴雨君 |
| 地址: | 350108 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 混合 環境 面向 優化 科學 工作流 數據 布局 方法 | ||
本發明公開一種混合云環境面向時延優化的科學工作流數據布局方法,考慮混合云環境下數據布局特點,結合科學工作流數據間的依賴關系,考慮云數據中心間的帶寬、私有云數據中心個數和容量等因素對傳輸時延的影響;首先對其進行預處理操作,提高后期數據布局策略的執行效率;通過引入遺傳算法的交叉算子和變異算子,避免粒子群優化算法的過早收斂問題,提高種群進化的多樣性,有效壓縮數據傳輸時延,有效降低混合云環境下的科學工作流數據傳輸時延。本發明提高數據布局策略的執行效率,優化科學工作流數據布局傳輸時延。
技術領域
本發明涉及并行和分布式高性能計算領域的科學工作流數據布局方法,尤其涉及一種混合云環境面向時延優化的科學工作流數據布局方法。
背景技術
科學工作流系統是一種數據密集型應用,已被廣泛應用于天文、高能物理和生物信息等科學研究領域。科學工作流應用基于數據驅動,其計算任務節點之間存在復雜的數據依賴,且處理的數據集大小通常可達TB甚至PB量級。這些數據集包括已存在的原始輸入數據集,以及處理分析過程中產生的中間數據集和最終數據集。由于科學工作流應用結構依賴復雜、數據量大等性質,其對部署環境的計算能力和數據存儲方面有嚴格要求。網格等傳統分布式環境,通常為某個具體科學應用研究而建設,它們之間的共享程度低,科學工作流部署在這樣的環境中會造成嚴重的資源浪費。
云計算通過虛擬化技術將不同地理位置的資源虛擬成資源池,以即付即用的方式面向終端用戶,其高效、靈活、高伸縮性、可定制的特點為科學工作流部署提供了一種經濟解決方案。混合云計算環境通常包括一個公有云和多個私有云:公有云可以在科學工作流負載波動劇烈情況下保證資源供應,維護服務質量;私有云則可以為科學工作流隱私數據的安全性提供保障。隨著大數據在科學應用領域重要性的增大,混合云環境下的科學工作流數據布局已成為科學研究領域的熱點。在應急管理應用領域,存在大量并發的實例,對科學工作流數據布局的時延要求嚴格。然而,科學工作流隱私數據的固定數據中心存放,導致應用執行過程中需要進行大量跨數據中心的數據傳輸,TB甚至PB量級的數據集傳輸和數據中心之間的有限網絡帶寬形成巨大矛盾,造成傳輸時延嚴重。因此,研究混合云環境下合理的科學工作流數據布局方案,顯得至關重要,具體體現為:(1)科學工作流應用結構依賴復雜、數據量大,混合云多數據中心環境下,合理的數據布局方案應保證單數據中心內部高內聚,數據中心之間低耦合,降低跨數據中心的數據傳輸時間開銷。(2)出于安全性考慮,隱私數據被指定存放在特定私有云數據中心,由于私有云數據中心的容量有限,需要進行跨數據中心傳輸,如何在傳輸帶寬有限和隱私數據固定存放限制下,考慮帶寬因素的影響,優化數據傳輸時延,是科學工作流數據布局的一個挑戰。(3)有效的數據布局方案,應在壓縮數據傳輸時延前提下,兼顧數據中心資源的有效利用。
現有科學工作流數據布局工作主要基于聚類方法和智能方法。聚類方法主要考慮多個數據中心的負載均衡數據布局,有效利用數據中心資源。然而在混合云環境下,存在隱私數據的科學工作流需要一種單數據中心內部高內聚、數據中心之間低耦合的數據布局方式才能有效保障數據傳輸的低延時。傳統基于負載均衡的聚類方法無法滿足混合云環境下科學工作流的低延時數據布局要求。傳統智能方法主要是基于遺傳算法的數據布局策略,這些方法主要考慮負載均衡問題,且易陷入局部最優。現有研究方法主要針對優化數據布局過程中的跨數據中心傳輸次數和數據傳輸量展開,對數據傳輸時延的壓縮研究較少,另外,傳統研究方法尚未對數據中心之間的傳輸帶寬差異進行充分討論。因此,針對混合云環境下面向時延優化的科學工作流數據布局問題,目前研究工作尚未形成一個完整有效的解決方案。
發明內容
本發明的目的在于提供一種混合云環境面向時延優化的科學工作流數據布局方法。
本發明采用的技術方案是:
一種混合云環境面向時延優化的科學工作流數據布局方法,其包括以下步驟:
步驟1:基于混合云環境下科學工作流構建數據布局方案模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建師范大學,未經福建師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810700970.0/2.html,轉載請聲明來源鉆瓜專利網。





