[發(fā)明專利]一種融合文本屬性的異質(zhì)圖表示學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202211217839.1 | 申請日: | 2022-09-30 |
| 公開(公告)號: | CN115659234A | 公開(公告)日: | 2023-01-31 |
| 發(fā)明(設(shè)計)人: | 李超;王振;閆頁宇;趙中英;李香菊;蘇令濤;段華;曾慶田 | 申請(專利權(quán))人: | 山東科技大學(xué) |
| 主分類號: | G06F18/241 | 分類號: | G06F18/241;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 青島智地領(lǐng)創(chuàng)專利代理有限公司 37252 | 代理人: | 種艷麗 |
| 地址: | 266590 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 文本 屬性 圖表 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種融合文本屬性的異質(zhì)圖表示學(xué)習(xí)方法,屬于圖數(shù)據(jù)處理技術(shù)領(lǐng)域,該學(xué)習(xí)方法將文本表示方法與圖表示學(xué)習(xí)方法相結(jié)合,基于transformer和圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行構(gòu)建。首先利用已有節(jié)點文本屬性進(jìn)行基于文本編碼策略的文本特征表示,并將文本的表示向量融入到異質(zhì)圖中。而后,基于鄰居節(jié)點的均值聚合以及節(jié)點特征變換的方法實現(xiàn)節(jié)點缺失屬性的補全。最終,將補全屬性的異質(zhì)圖輸入到已有圖神經(jīng)網(wǎng)絡(luò)模型,通過端到端的訓(xùn)練策略生成最佳的節(jié)點向量。本發(fā)明能夠深度的融合節(jié)點文本屬性從而提升圖神經(jīng)網(wǎng)絡(luò)模型的性能。
技術(shù)領(lǐng)域
本發(fā)明屬于圖數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種融合文本屬性的異質(zhì)圖表示學(xué)習(xí)方法。
背景技術(shù)
圖結(jié)構(gòu)數(shù)據(jù)是現(xiàn)實生活中廣泛存在的一類數(shù)據(jù)形式。宏觀上的互聯(lián)網(wǎng)、知識圖譜、社交網(wǎng)絡(luò)數(shù)據(jù),微觀上的蛋白質(zhì)、化合物分子等都可以用圖結(jié)構(gòu)來建模和表示。異質(zhì)圖能夠準(zhǔn)確有效建模現(xiàn)實世界中豐富的語義信息和復(fù)雜的網(wǎng)絡(luò)關(guān)系。
隨著人工智能的發(fā)展,真實世界的圖數(shù)據(jù)得到大量的積累,如何深入分析與挖掘這些圖數(shù)據(jù)成為了數(shù)據(jù)挖掘的研究熱點,對圖數(shù)據(jù)研究方法大致如下:
(1)淺層圖嵌入模型:圖嵌入的目的是將圖中的節(jié)點投影到低維向量空間,用低維稠密向量來表示網(wǎng)絡(luò)中的任意節(jié)點,從而更靈活地應(yīng)用于不同數(shù)據(jù)挖掘任務(wù)中;同時在低維向量空間中,節(jié)點的表示能夠反映節(jié)點之間關(guān)系以及保留節(jié)點的特征信息。當(dāng)前方法大多基于已有的深度模型并結(jié)合網(wǎng)絡(luò)特征學(xué)習(xí)節(jié)點或邊的特征表示,如DeepWalk,將隨機游走和skip-gram模型結(jié)合來學(xué)習(xí)節(jié)點表示;LINE在一階鄰居相似性的基礎(chǔ)上加上二階相似性,來獲取具有豐富信息的節(jié)點表示;SDNE借助深度自動編碼器來抽取網(wǎng)絡(luò)結(jié)構(gòu)的非線性特征生成節(jié)點表示;metapath2vec則以異質(zhì)圖為研究對象,在meta-paths的引導(dǎo)下生成隨機節(jié)點序列,然后將序列輸入skip-gram模型生成節(jié)點表示。與metapath2vec類似,HERec提出了一種類型約束策略,以過濾節(jié)點序列并捕獲異構(gòu)圖中復(fù)雜語義。
(2)圖神經(jīng)網(wǎng)絡(luò)模型:圖神經(jīng)網(wǎng)絡(luò)是深層圖嵌入模型,將深度學(xué)習(xí)推廣到圖結(jié)構(gòu)數(shù)據(jù),遵循信息傳遞框架聚合鄰居的信息,該框架分為兩個步驟:1)按照節(jié)點間的拓?fù)潢P(guān)系傳播信息;2)節(jié)點的信息聚合來更新節(jié)點表示。圖神經(jīng)網(wǎng)絡(luò)模型可以分為譜域和空域兩種?;谧V域的圖神經(jīng)網(wǎng)絡(luò)依賴于拉普拉斯矩陣的特征分解,如GCN和FAGCN通過設(shè)計不同的核函數(shù)聚合鄰域的特征信息。基于空域的方法直接在圖上定義卷積,從每個節(jié)點的鄰域中聚合特征信息。如GraphSAGE和GAT設(shè)計不同的函數(shù)來聚合鄰域的特征信息。上述的圖神經(jīng)網(wǎng)絡(luò)僅適用于同質(zhì)圖。最近的一些研究將圖神經(jīng)網(wǎng)絡(luò)擴展到異質(zhì)圖,例如HAN首先通過節(jié)點級注意力學(xué)習(xí)不同元路徑下鄰域節(jié)點的重要性;之后通過語義級注意力學(xué)習(xí)不同元路徑的重要性,最后根據(jù)重要性來聚合不同元路徑下的鄰域節(jié)點的特征信息。HetGNN首先通過帶重啟的隨機游走對鄰居進(jìn)行采樣,然后通過長短期記憶網(wǎng)絡(luò)(LSTM)與注意力機制聚合鄰域中不同類型的節(jié)點信息。MAGNN模型首先將不同類型節(jié)點的特征信息映射到同一空間下,然后聚合元路徑下的信息,最后完成多條元路徑下的節(jié)點向量的聚合。
從以上研究來看,基于深度學(xué)習(xí)方法在圖數(shù)據(jù)的表示學(xué)習(xí)上取得了較好成績。但是在對圖數(shù)據(jù)進(jìn)行表示學(xué)習(xí)中淺層的圖嵌入模型和圖神經(jīng)網(wǎng)絡(luò)模型都存在不能充分挖掘節(jié)點文本信息的問題,造成語義信息的損失。因此如何實現(xiàn)圖節(jié)點文本屬性融入和科學(xué)準(zhǔn)確的屬性表示和屬性補全,文本屬性表示、補全與模型設(shè)計之間相互增強成為當(dāng)下研究需要解決的問題。
已有網(wǎng)絡(luò)表示學(xué)習(xí)方法主要針對模型的改進(jìn)來提高算法性能,隨著異質(zhì)圖神經(jīng)網(wǎng)絡(luò)研究的深入,研究人員發(fā)現(xiàn)完備的節(jié)點屬性是算法運行的必要前提。已有的研究對于屬性的缺失采用一些簡單的手工插補方法(例如平均插補、one-hot向量插補)進(jìn)行補全。這些方法將屬性補全與圖表示學(xué)習(xí)過程分開,忽略了準(zhǔn)確的屬性對于下游任務(wù)的重要性,因此很難使用簡單插補后的屬性來保證模型的性能。尤其是針對節(jié)點文本屬性的表示與圖神經(jīng)網(wǎng)絡(luò)的融入。傳統(tǒng)的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的節(jié)點屬性是將文本用one-hot向量表示構(gòu)建的,存在語義稀疏的問題;對于缺失屬性的節(jié)點通過均值求和補全屬性,這種補全方式會引入噪音信息,從而導(dǎo)致模型的性能降低。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東科技大學(xué),未經(jīng)山東科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211217839.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





