[發明專利]一種基于圖神經網絡的大規模數據可視化降維方法有效
| 申請號: | 202011258545.4 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112241478B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 楊易揚;張景彬;任成森;鞏志國;蔡瑞初;郝志峰;陳炳豐 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/904 | 分類號: | G06F16/904;G06N3/04;G06N3/084 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 大規模 數據 可視化 方法 | ||
1.一種基于圖神經網絡的大規模數據可視化降維方法,其特征在于,包括:
S1.獲取高維數據集,對高維數據集進行預處理;
所述高維數據集包括詞向量數據集和圖形像素數據集,設高維數據集表示為D={D1,D2,...Di,...,DN},D∈Rd,R表示實數,Di表示第i個維度為d的向量,對高維數據集進行的預處理操作包括正則化處理;
S2.構建高維數據集的異構圖;
步驟S2所述構建高維數據集的異構圖的過程包括:利用高維數據集中已存在的異構圖信息直接組成異構圖或高維數據集中不存在異構圖信息,構建高維數據集的KNN圖;
所述利用高維數據集中已存在的異構圖信息直接組成異構圖的表達式為:
GH=(EH,VH)
其中,GH表示高維數據集的異構圖,VH表示異構圖的節點集合,VH中第i個節點vi對應的高維數據集的第一個向量D1;EH表示異構圖的邊,若節點vi與節點vj在異構圖中存在邊,則(vi,vj)∈EH;
S3.構建GNN圖神經網絡模型,將高維數據集及異構圖作為輸入,輸出降維后的可視化向量;
S4.將高維數據集劃分為測試集T和訓練集S,構建圖神經網絡模型的損失函數,利用訓練集S訓練GNN圖神經網絡模型;
步驟S4所述構建圖神經網絡模型的損失函數面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通過GNN圖神經網絡模型fGNN(GH,D,W)得到與輸入高維數據集D={D1,D2,...,DN}對應降維后的y維可視化向量D′={D′1,D′2,...,D′N},其中D′∈Ry,y=2或3;
面向t-SNE算法構建的第一損失函數OFt-SNE滿足:
其中,qij為中間概率,且為整數;
構建異構圖的過程中獲得高維數據集的概率分布P,表示為:
其中,pij表示節點Di的附近出現節點Dj的概率;k,l表示不同于i、j的數值編號;
面向UMAP算法構建的第二損失函數OFUMAP滿足:
其中,β、u均為大于零的實數;
面向LargeVis算法構建的第三損失函數OFLargeVis滿足:
其中,EH為異構圖的邊集合,δ為大于0的實數,表示在選定的數據節點Dj的情況下,節點Dk被選中的概率;
利用訓練集S訓練GNN圖神經網絡模型的過程為:
S41.基于第一損失函數OFt-SNE、第二損失函數OFUMAP及第三損失函數OFLargeVis,確定損失函數值OF;
S42.利用神經網絡殘差反向傳播技術,計算GNN圖神經網絡模型中的所有節點殘差,更新網絡中的參數W={w1,w2,...,wH};
S43.存在收斂值E,判斷損失函數值OF是否滿足:
|OF-E|≤ε是否成立,ε表示足夠小的正數,若是,訓練結束;否則,返回步驟S41;
S5.GNN圖神經網絡模型訓練完成后,利用測試集T對圖神經網絡模型進行測試,確定最終的可視化降維模型;
步驟S5所述利用測試集T對圖神經網絡模型進行測試的過程包括:
S51.確認高維數據集中的標簽信息;
S52.將測試集T={T1,T2,...,TN′}通過訓練好的GNN圖神經網絡模型進行降維,得到降維后的測試集T′={T′1,T′2,...,T′N′};
S53.利用k鄰近鄰居分類算法測試數據集T′的可視化效果:
確定測試節點i的k鄰近鄰居集合N(T′i)={T′i1,T′i2,...,T′ik};
通過k鄰近鄰居集合N(T′i)計算出節點T′i得到標簽,判斷是否與節點T′i的原分類標簽是否一致,若是,GNN圖神經網絡模型為最終的可視化降維模型;否則,返回S4繼續訓練GNN圖神經網絡模型;
步驟S5所述利用測試集T對圖神經網絡模型進行測試的過程還包括高維數據集中未含標簽信息的測試;過程為:
S501.將測試集T={T1,T2,...,TN′}通過訓練好的GNN圖神經網絡模型進行降維,得到降維后的測試集T′={T′1,T′2,...,T′N′};
S502.設測試集T={T1,T2,...,TN′}的秩為ρ,計算滿足:
ρij=|{k:δik<δijor(δik=δijand?k<j)}|
δij=||Ti-Tj||2
其中,|·|表示集合的基數,δij表示降維前高維測試集節點i與高維節點j的距離;
降維后的測試集T′={T′1,T′2,...,T′N′}的秩為r,計算滿足:
dij=||T′i-T′j||2
其中,dij表示低維節點i與低維節點j的距離;
S503.將降維前高維測試集的秩為ρ與降維后的秩r對比,利用co-ranking技術確認降維前高維測試集與降維后數據的相似度,判斷相似度是否滿足K標準,若是,GNN圖神經網絡模型為最終的可視化降維模型;否則,返回S4繼續訓練GNN圖神經網絡模型;
S6.將待降維的大規模數據集輸入可視化降維模型,進行可視化降維。
2.根據權利要求1所述的基于圖神經網絡的大規模數據可視化降維方法,其特征在于,步驟S3所述的構建GNN圖神經網絡模型的過程為:
S31.確定GNN圖神經網絡模型的超參數,包括隱藏層的維度h、神經網絡的深度H及學習速率γ;
S32.將高維數據集D及高維數據集的異構圖GH=(EH,VH)作為GNN圖神經網絡模型的輸入,選定神經網絡模型參數W={w1,w2,...,wH},其中,wv表示GNN圖神經網絡第v層隱藏層的可訓練參數;
S33.構建出GNN圖神經網絡模型fGNN(GH,D,W)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011258545.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電路板噴墨打印設備
- 下一篇:一種模擬四足動物機械結構
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





