[發明專利]大規模異構圖節點表示的高效學習方法及裝置有效
| 申請號: | 202110652830.2 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113326884B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 羅翠鈴;張吉;高軍 | 申請(專利權)人: | 之江實驗室;北京大學 |
| 主分類號: | G06F18/2415 | 分類號: | G06F18/2415;G06N3/0464;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 311121 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規模 構圖 節點 表示 高效 學習方法 裝置 | ||
1.一種大規模學術網絡異構圖節點分類方法,其特征在于,所述學術網絡異構圖中節點的類型包括論文、作者、會議、研究領域,該方法包括以下步驟:
在訓練階段,利用大規模學術網絡異構圖節點表示的高效學習方法學習得到學術網絡異構圖中節點i的鄰居的向量表示,并輸入異構圖節點分類模型,得到學術網絡異構圖中節點i的類別預測結果z,其中節點i是論文節點、作者節點、會議節點、或研究領域節點;將預測結果z與真實標簽y的交叉熵作為損失函數,通過后向傳播和隨機梯度下降,更新優化模型的參數;對學術網絡異構圖中一個節點i的類別預測結果,由其各topk鄰居的帶有類型信息的屬性表示,根據ppr向量π(∈)所代表的PageRank重要性分數,加權聚合而來,即:
其中,zi為對學術網絡異構圖中節點i的類別預測結果,Nk(i)為π(∈)(i)中前k大的非零值對應的鄰居集合,即學術網絡異構圖中節點i的topk鄰居;
其中,所述大規模學術網絡異構圖節點表示的高效學習方法,包括以下步驟:
計算學術網絡異構圖中節點的鄰居的重要性,根據重要性對節點的鄰居進行采樣;
根據學術網絡異構圖中節點的類型信息,學習節點的類型嵌入向量;
將鄰居的類型嵌入向量和屬性特征進行融合,得到鄰居的向量表示;
在推理階段,對待分類的節點計算其鄰居的重要性,并根據重要性對該節點的鄰居進行采樣,然后直接利用訓練階段已學習到的類型嵌入向量,通過訓練好參數的異構圖節點分類模型,預測出該節點的分類結果。
2.根據權利要求1所述的方法,其特征在于,所述計算異構圖中節點的鄰居的重要性,根據重要性對節點的鄰居進行采樣,包括:
基于個性化PageRank算法計算鄰居的重要性,通過求解ppr矩陣來對節點的鄰居進行采樣;ppr矩陣的每一行為對應節點的ppr向量,代表隨機游走收斂時節點到達圖上其余各節點的概率,概率越高表明鄰居對節點越重要;通過選取ppr向量前k大的值來采樣最重要的topk個鄰居。
3.根據權利要求2所述的方法,其特征在于,對所述ppr矩陣進行近似計算以規避矩陣求逆,并對所述ppr矩陣進行預計算以縮短訓練時間。
4.根據權利要求1所述的方法,其特征在于,所述根據異構圖中節點的類型信息,學習節點的類型嵌入向量,包括:
對圖中節點執行隨機游走,以生成節點類型序列;
運行Skip-gram算法,根據隨機游走中生成的節點類型序列,學習每個節點的類型嵌入。
5.根據權利要求1所述的方法,其特征在于,所述將采樣的鄰居的類型嵌入向量和屬性特征進行融合,得到鄰居的向量表示,包括:
對不同類型的異構鄰居j,先將不同維度的屬性向量Xj經過線性層轉換為同一維度di的向量其中di為源節點屬性向量Xi的維度,再將統一維度后的屬性向量與節點類型嵌入向量融合得到鄰居的向量表示Hj,Hj的維度也是di。
6.根據權利要求1所述的方法,其特征在于,所述異構圖節點分類模型為MLP模型或神經網絡模型。
7.一種電子裝置,其特征在于,包括存儲器和處理器,所述存儲器存儲計算機程序,所述計算機程序被配置為由所述處理器執行,所述計算機程序包括用于執行權利要求1~6中任一權利要求所述方法的指令。
8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲計算機程序,所述計算機程序被計算機執行時,實現權利要求1~6中任一權利要求所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室;北京大學,未經之江實驗室;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110652830.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種油氣處理系統及工藝
- 下一篇:一種婦科用用于治療高度宮頸糜爛的儀器





