[發明專利]拓展單機圖神經網絡訓練至分布式訓練方法、系統及介質有效
| 申請號: | 202011043369.2 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112149808B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 陳榕;楊健邦;陳海波;臧斌宇 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F9/50 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拓展 單機 神經網絡 訓練 分布式 方法 系統 介質 | ||
本發明公開了一種拓展單機圖神經網絡訓練至分布式訓練的方法,該方法通過提供圖劃分和數據同步拓展的功能,利用具有自動反向傳播的單機圖神經網絡框架,只需要在原有單機圖神經網絡模型代碼中增加少量的數據同步代碼,再將大圖劃分至多臺服務器,可以在不修改單機圖神經網絡框架以及不修改原有單機圖神經網絡模型計算邏輯的情況下,使用多臺服務器實現與單機圖神經網絡訓練等價的分布式大圖訓練。此外,本發明還公開了一種拓展單機圖神經網絡訓練至分布式訓練的系統。另外,本發明公開了一種存儲有計算機程序的計算機可讀存儲介質。
技術領域
本發明涉及深度學習領域和圖神經網絡領域,特別是涉及一種拓展單機圖神經網絡訓練至分布式訓練的方法。
背景技術
圖結構數據可以表示數據間的關聯性,可以用來刻畫現實生活中的很多問題。圖神經網絡(例如GCN、GAT、GraphSage等)這種基于圖的深度學習方法,可用來預測圖上節點的類型、預測節點與節點之間存在邊的可能性,等等,在很多領域都取得了非常好的效果。
單機圖神經網絡框架(例如,DGL和PyG)提供了靈活便捷的編程接口,并且擁有很好單機訓練性能。但在實際生產應用中,圖的規模已經非常巨大,點和邊都已經達到數億甚至數十億以上。通常情況下,一臺服務器是不足以進行存儲和計算這么大規模的數據,因此單機圖神經網絡無法進行這種大規模圖數據的訓練。
目前,大多數實現大規模圖神經網絡訓練的方法都是采用先采樣后訓練的方式,通過將大圖采樣得到一個單臺服務器能夠存儲和計算的子圖,再進行訓練。這種雖然能夠很好地解決大圖訓練的計算和存儲資源不足以及單機大圖訓練效率過低問題,但是其仍然存在模型訓練最終準確度可能不足以及參數收斂周期增加的問題。
此外,還有采用深度學習框架和分布式圖計算結合的方法來實現針對大規模圖數據的分布式大圖訓練。這種方法雖然也能夠使用與單臺服務器相同的計算邏輯訓練大規模的圖數據,從而保證模型訓練的準確度以及參數的收斂速度,但是其需要用戶同時編寫圖計算操作的正向傳播和反向傳播的計算邏輯,而目前大部分的深度學習框架以及單機圖神經網絡框架都采用的是自動反向傳播的方法,不需要用戶編寫反向傳播步驟,因為反向傳播的計算邏輯相對于正向傳播的計算邏輯來說比較復雜,在分布式場景下會變得更加復雜,由用戶自行實現的反向傳播邏輯很容易出錯,用戶也很難去驗證反向傳播邏輯的正確性,因此這種方案缺乏靈活性,并不能很方便地快速開發實現圖神經網絡模型。
因此,希望能有一個方案,既能實現大規模圖數據的分布式大圖訓練,也具有像單機圖神經網絡框架那樣提供靈活方便接口,同時還能達到足夠高的訓練準確度、保證高效的訓練性能。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種針對大圖的分布式訓練圖神經網絡的方法,其能夠利用多臺服務器協同計算,并且充分利用單機圖神經網絡框架,在不修改單機圖神經網絡框架和幾乎不修改單機圖神經網絡模型代碼的情況下,在每臺服務器上分別執行一個單機圖神經網絡的訓練過程,通過數據同步算子的拓展,在單機訓練的計算過程中進行適當的數據同步,協同多臺服務器來實現分布式大圖訓練,從而解決大規模圖數據的訓練問題。
本發明的目的可以通過以下技術方案來實現:
第一方面,本發明提出了一種拓展單機圖神經網絡訓練至分布式訓練的方法,其包括以下步驟:
步驟一:將數據同步操作注冊成為單機圖神經網絡框架的算子;
步驟二:修改單機圖神經網絡模型代碼,在單機圖神經網絡模型中所有圖遍歷計算算子之前,增加步驟一定義的數據同步算子的調用代碼;
步驟三:進行圖劃分,以使得每臺服務器得到全圖的一部分節點和相對應的邊;
步驟四:模型參數初始化;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011043369.2/2.html,轉載請聲明來源鉆瓜專利網。





