[發明專利]針對關系不確定性的引文網絡節點分類方法及系統有效
| 申請號: | 202110154722.2 | 申請日: | 2021-02-04 |
| 公開(公告)號: | CN112836050B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 劉士軍;陳冠恒;郭子瑜;梅廣旭;潘麗;楊承磊;孟祥旭 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/901;G06N3/04 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 關系 不確定性 引文 網絡 節點 分類 方法 系統 | ||
1.針對關系不確定性的引文網絡節點分類方法,其特征是,包括:
獲取待預測類別標簽的論文,獲取已知類別標簽的引文網絡;
根據所述待預測類別標簽的論文和所述已知類別標簽的引文網絡,構建元路徑鄰居圖;
基于元路徑鄰居圖,生成若干個泛化圖;
將所有泛化圖,均輸入到預訓練后的圖卷積神經網絡中,輸出待預測類別標簽論文的類別標簽;
基于元路徑鄰居圖,生成若干個泛化圖;具體步驟包括:
每個元路徑鄰居圖Gφ均被視為一個隨機圖參數族的實現,使用a-MMSBM模型對Gφ建模,以此獲取隨機圖參數并實現泛化圖的生成;其中,a-MMSBM英文全稱為:assortativemixed-membership stochastic block model,a-MMSBM的中文解釋為:基于分類混合隸屬度隨機塊模型;
對于包含M個節點的Gφ,這些節點分為K類,而同時歸屬多種類別的任意節點a∈M,其歸屬類別通過一個維度為K的概率分布πa表示,即πa=[πa1,…,πak]T,其中πak表示節點a屬于類別k的概率;
同時每種類別都有其類別強度βk∈(0,1),用于評估該類別的成員之間聯系的緊密程度;
對于Gφ中任意節點對(a,b),存在指示變量Da→b=k1表示節點a指向節點b時節點a所歸屬的類別為k1,指示變量Db→a=k2表示節點b指向節點a時節點b所歸屬的類別為k2;
節點對(a,b)的連接概率Lab∈{0,1},取值為0時表示不存在連接的邊,取值為1時表示存在連接的邊;總的來說,Gφ的節點之間是否連接取決于它們的類別成員的相似性和它們共享類別的強度;
基于元路徑鄰居圖Gφ并利用a-MMSBM生成泛化圖通過下面的描述定義:
(1)對于每個類別k,采樣其類別強度βk~Beta(η);
(2)對于任意節點a∈M,采樣其歸屬的類別分布πa~Dirichlet(α);
(3)對于任意節點對(a,b),分別采樣其指示變量Da→b~πa和Db→a~πb;當Da→b=Db→a=k時,采樣它們之間的邊Lab~Bernoulli(βk);當Da→b≠Db→a時Lab~Bernoulli(δ),其中δ∈(0,1)是跨類別連接概率;
其中η和α均為超參數,上述的生成模型過程通過下面的聯合后驗公式描述:
通過元路徑鄰居圖Gφ獲取a-MMSBM參數π和β的聯合后驗分布如下:
結合貝葉斯方法構建以節點標簽為目標的推導公式,最終利用近似方法得到公式的近似表示,利用GCN中softmax函數得到每個權重樣本的輸出,并通過累加這些輸出得到節點的標簽以此得到節點的分類結果;
通過重構網絡結構來解決異質圖中存在的關系不確定性問題,并結合貝葉斯方法,將網絡結構以及神經網絡的權重視為隨機變量,以節點的標簽為推理目標,利用邊緣化方法構建推導公式;
在節點分類任務中,對于單個元路徑鄰居圖的泛化圖樣本G,輸入數據表示為節點特征X、節點標簽YL與之相對應的輸出表示為Z={z1,…,zn},目標是通過神經網絡訓練得到一個能反映輸入和輸出之間關系的函數z=f(x),使用貝葉斯方法將神經網絡權重參數W建模為隨機變量,引入它們的先驗分布,同時因為W是不確定的,所以神經網絡的輸出也是隨機變量;
對于新輸入x的預測,根據相應的W的后驗分布,通過積分函數得到:
p(z|x,X,YL,G)=∫p(z|x,W,G)p(W|X,YL,G)dW;
使用GCN建模p(W|X,YL,G),并使用softmax函數實現p(z|x,W,G)以得到節點的分類標簽;
蒙特卡羅近似得到上式的近似公式:
其中S個權重樣本Ws通過結合了MC-dropout方法的GCN得到;其中,MC-dropout的英文全稱為Monte Carlo dropout;MC-dropout表示蒙特卡羅近似;
元路徑鄰居圖Gφ、隨機圖參數λ={π,β}、泛化圖G的權重參數W以及節點標簽Z都被視為隨機變量,由于最終目的是獲得節點的標簽,基于此,利用邊緣化方法得到節點標簽的后驗概率計算公式:
p(Z|X,YL,Gobs)=∫p(Z|W,G,X)p(W|X,YL,G)p(G|λ)p(λ|Gφ)p(Gφ|Gobs)dWdGdλdGφ;
其中,p(Gφ|Gobs)表示從異質圖Gobs中獲取元路徑鄰居圖Gφ的概率,p(λ|Gφ)表示基于元路徑鄰居圖Gφ獲取隨機圖參數族λ={π,β}的概率,p(G|λ)表示利用這些參數λ構建泛化圖G的概率,p(W|X,YL,G)表示對于單個泛化圖G采樣神經網絡權重參數W的概率,最終基于節點特征X、泛化圖G以及權重樣本W得到節點的標簽分布p(Z|W,G,X);
對于p(Gφ|Gobs)的實現方式,針對不同數據集預定義多種元路徑,基于這些元路徑構建元路徑鄰居圖樣本集,再通過均勻采樣的方式實現從異質圖中采樣元路徑鄰居圖;對于p(λ|Gφ)以及p(G|λ),則通過隨機圖生成模型a-MMSBM對其建模來推理實現;對于權重后驗p(W|X,YL,G),通過結合了MC-dropout方法的GCN實現權重樣本W采樣,最后通過GCN的softmax函數的結果對p(Z|W,G,X)建模;
由此,得到上述節點標簽的后驗概率計算公式的蒙特卡洛近似:
其中,從p(Gφ|Gobs)采樣H個元路徑鄰居圖樣本Gφ,對于每個Gφ通過隨機圖生成模型,從p(λ|Gφ)獲取I個參數族樣本λi,從p(G|λi)采樣出NG個泛化圖樣本Gn,i,φ,這些泛化圖樣本的準確度取決于對元路徑鄰居圖樣本所構建的隨機圖生成模型,采用a-MMSBM作為隨機圖生成模型;
對于權重樣本的采樣p(W|X,YL,Gn,i,φ),通過結合了MC-dropout方法的GCN對每個Gn,i,φ采樣S個權重樣本Ws,n,i,φ,并對Ws,n,i,φ使用softmax函數得到節點標簽的概率分布,最后通過累加這些標簽分布得到節點最終的標簽分布p(Z|X,YL,Gobs);
對于a-MMSBM的隨機參數π、β采用隨機優化方法學習,但是由于a-MMSBM的后驗維度過高,對其參數采用隨機初始化的方式影響了訓練效果,所以使用GCN預訓練元路徑鄰居圖Gφ,利用softmax函數的輸出初始化參數π和β;同時為了避免因為參數π和β取值范圍過大導致a-MMSBM生成的泛化圖樣本Gn,i,φ與Gφ差異過大,使用最大后驗估計了替代π和β的積分,利用合適的π和β的先驗得到近似公式:
由此Gn,i,φ改寫為Gn,φ,Ws,n,i,φ改寫為Ws,n,φ,上述節點標簽的后驗概率計算公式的蒙特卡洛近似進一步簡寫為:
其中,Z表示神經網絡的輸出向量,X表示節點的特征向量,YL表示節點的標簽向量,Gobs表示輸入的異質圖,H表示采樣元路徑鄰居圖的樣本數量,φ表示一條元路徑,其中一條元路徑構建一個元路徑鄰居圖,NG表示采樣泛化圖的樣本數量,n表示第n個泛化圖樣本,S表示采樣權重樣本的數量,s表示第s個權重樣本,Gn,φ表示基于元路徑鄰居圖Gφ得到的第n個泛化圖樣本,Ws,n,φ表示基于泛化圖Gn,φ得到的第s個權重樣本;
利用a-MMSBM從采樣得到Gn,φ,結合MC-dropout方法對Gn,φ使用GCN實現從p(W|X,YL,Gn,φ)采樣Ws,n,φ,并使用softmax函數得到節點標簽分布,最后采用累加的方式計算節點的標簽分布;
通過對異質圖的元路徑鄰居圖進行重構以及泛化得到新的圖結構,原來異質圖中本身具有強關系的節點之間的邊會增強,而弱關系或臟數據帶來的假邊則會被忽略,解決了異質圖中關系的不確定性問題,同時經過泛化得到更多的圖結構樣本能夠增加訓練數據中的對抗性實例的數量,從而增強了模型的魯棒性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110154722.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:密封吊艙推進器
- 下一篇:一種機械旋轉式非光滑局域共振聲子晶體減振裝置





