[發明專利]應用的托管進程進行遷移的方法及裝置在審
| 申請號: | 201710908817.2 | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN109582459A | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 陳鋼 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 孫敬霞;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 托管 機器節點 新資源 進程 目標機器 遷移 應用 節點啟動 進程分配 托管應用 釋放 申請 分配 成功 | ||
一種應用的托管進程進行遷移的方法及裝置,包括:確定對當前機器節點的應用的托管進程進行遷移時,在目的機器節點為所述托管進程分配新資源;在所述目標機器節點,基于分配的新資源啟動所述托管進程;所述托管進程在所述目標機器節點啟動成功后,釋放所述托管進程在所述當前機器節點上占有的資源。本申請至少能夠避免舊資源已釋放而新資源又申請不下來的情況,可提高托管應用的穩定性。
技術領域
本發明涉及計算機應用技術領域,尤其涉及一種應用的托管進程進行遷移的方法及裝置。
背景技術
一個大型的分布式資源調度系統通常管理著成千上萬臺機器節點,每一臺機器節點可作為一個資源節點提供物理資源。用戶可通過分布式資源調度系統提供的協議或者客戶端與集群進行交互,完成資源申請、以及應用的自動化部署/運行工作。然而由于集群規模巨大,在集群上運行的應用種類復雜,數量繁多,通常會由于資源隔離不完善、機器宕機、硬件損壞、網絡抖動以及應用自身問題等原因而造成應用運行異常,這就需要將所述應用的托管進程快速地遷移到集群中其他正常機器節點中。
目前,托管進程的遷移是先將托管進程占用的資源釋放,再為該托管進程申請新資源并重新部署。異常進程已占有資源被釋放后,無法保證當前集群有新資源可供分配和使用,很可能會出現舊的資源已經釋放而新資源又由于種種原因申請不下來的情況,而一旦出現這種情況,相當于用戶應用被迫縮容,不但增加了用戶使用集群的成本,還會造成線上服務中斷。
此外,相關技術中托管進程的遷移要么是用戶觸發要么是資源調度系統主動觸發,觸發模式單一,某些應用運行異常的情況無法及時感知,導致托管進程的遷移滯后,從而造成應用服務長時間不可用,嚴重影響用戶體驗。
發明內容
本申請旨在至少解決相關技術中的技術問題之一。
本申請提供一種應用的托管進程進行遷移的方法及裝置,至少能夠避免舊資源已釋放而新資源又申請不下來的情況。
本申請采用如下技術方案:
一種應用的托管進程進行遷移的方法,包括:
確定對當前機器節點的應用的托管進程進行遷移時,在目的機器節點為所述托管進程分配新資源;
在所述目標機器節點,基于分配的新資源啟動所述托管進程;
所述托管進程在所述目標機器節點啟動成功后,釋放所述托管進程在所述當前機器節點上占有的資源。
其中,所述在目的機器節點為所述托管進程分配新資源之前,還包括:所述當前機器節點檢測到自身物理資源異常時,觸發所述托管進程的遷移;根據來自客戶端的遷移消息,觸發托管進程的遷移,所述遷移消息中攜帶所述托管進程的標識。
其中,所述物理資源異常包括如下之一或多項:
宕機;
網絡抖動;
硬件損壞。
其中,在基于分配的新資源啟動所述托管進程之前,還包括:將所述當前機器節點上所述托管進程的本地臨時數據同步至所述目標機器節點。
其中,將所述當前機器節點上所述托管進程的本地臨時數據同步至所述目標機器節點,包括:將所述當前機器節點上所述托管進程的本地臨時數據拷貝至共享存儲文件系統,再從所述共享存儲文件系統中將所述托管進程的本地臨時數據拷貝至所述目標機器節點。
其中,所述釋放所述托管進程在當前機器節點上占有的資源之后,還包括:將所述當前機器節點上所述托管進程的本地臨時數據刪除。
其中,所述基于分配的新資源啟動所述托管進程之后,還包括:所述托管進程在所述目標機器節點啟動失敗時,自動回滾。
其中,所述自動回滾包括如下之一或多項:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710908817.2/2.html,轉載請聲明來源鉆瓜專利網。





