[發(fā)明專(zhuān)利]一種針對(duì)不完整異質(zhì)圖的基于格的節(jié)點(diǎn)分類(lèi)方法與系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202310071841.0 | 申請(qǐng)日: | 2023-01-16 |
| 公開(kāi)(公告)號(hào): | CN116304858A | 公開(kāi)(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 劉士軍;梅廣旭;潘麗;楊承磊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 山東大學(xué) |
| 主分類(lèi)號(hào): | G06F18/241 | 分類(lèi)號(hào): | G06F18/241;G06N5/02 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250101 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 完整 異質(zhì)圖 基于 節(jié)點(diǎn) 分類(lèi) 方法 系統(tǒng) | ||
本發(fā)明提供了一種針對(duì)不完整異質(zhì)圖的基于格的節(jié)點(diǎn)分類(lèi)方法及系統(tǒng),所述方案包括:獲取不完整異質(zhì)圖,其中,所述不完整異質(zhì)圖包括節(jié)點(diǎn)、邊類(lèi)型、數(shù)目以及相關(guān)屬性字段;根據(jù)獲得的數(shù)據(jù),計(jì)算不同的特征集和結(jié)構(gòu)集;根據(jù)獲得的特征集和結(jié)構(gòu)集中的不同元素間的偏序關(guān)系,計(jì)算出特征偏序集和結(jié)構(gòu)偏序集;根據(jù)得到的特征偏序集和結(jié)構(gòu)偏序集,構(gòu)建特征格和結(jié)構(gòu)格;將特征格和結(jié)構(gòu)格中的每個(gè)單元輸入到基于格的雙注意力網(wǎng)絡(luò),輸出待預(yù)測(cè)節(jié)點(diǎn)對(duì)的預(yù)測(cè)值。
技術(shù)領(lǐng)域
本發(fā)明屬于異質(zhì)信息網(wǎng)絡(luò)節(jié)點(diǎn)分類(lèi)技術(shù)領(lǐng)域,尤其涉及一種針對(duì)不完整異質(zhì)圖的基于格的節(jié)點(diǎn)分類(lèi)方法與系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
現(xiàn)實(shí)世界中的數(shù)據(jù)如社交網(wǎng)絡(luò)、電商網(wǎng)絡(luò)和生物化學(xué)網(wǎng)絡(luò)經(jīng)常包含多種類(lèi)型的實(shí)體和實(shí)體間的交互信息。這種類(lèi)型數(shù)據(jù)經(jīng)常被建模為異質(zhì)信息網(wǎng)絡(luò)(heterogeneousinformation?networks,HINs)或稱(chēng)為異質(zhì)圖(heterogeneous?graphs)。近年來(lái)有很多研究被提出,來(lái)解決異質(zhì)圖上的節(jié)點(diǎn)分類(lèi)問(wèn)題。但這些研究大多基于處理過(guò)的完整圖數(shù)據(jù),沒(méi)有考慮現(xiàn)實(shí)世界異質(zhì)圖數(shù)據(jù)常存在的特征不完整(characteristic?incompleteness)和結(jié)構(gòu)不完整(structure?incompleteness)的情況。以AMiner公開(kāi)的ACM論文數(shù)據(jù)為例,如實(shí)施例AMiner公開(kāi)的ACM論文數(shù)據(jù)(圖1)所示,其中包含文章(Paper)、標(biāo)題(Title)、年份(Year)、摘要(Abstract)、作者(Author)、會(huì)議(Venue)和參考文獻(xiàn)(Reference)等信息。將圖1的信息進(jìn)行統(tǒng)計(jì),可以得到帶有各種標(biāo)簽組合的節(jié)點(diǎn)如圖2(a)所示,這些不同的特征和結(jié)構(gòu)組合反映了節(jié)點(diǎn)的不同語(yǔ)義表示。針對(duì)這類(lèi)不完整的異質(zhì)圖數(shù)據(jù),現(xiàn)有研究主要有以下不足:
(1)對(duì)不完整的數(shù)據(jù),采用丟棄或補(bǔ)充的方式使數(shù)據(jù)整齊。但這種方法會(huì)導(dǎo)致信息丟失或引入噪聲。如圖2(a)所示,若以P2類(lèi)型節(jié)點(diǎn)為例,只保留標(biāo)題、年份和摘要信息,其他節(jié)點(diǎn)的信息丟棄,將導(dǎo)致作者等信息丟失;對(duì)于缺少這三類(lèi)信息的節(jié)點(diǎn),進(jìn)行0/1填充或者參數(shù)化填充,將引入額外的噪聲數(shù)據(jù);
(2)對(duì)不完整異質(zhì)圖挖掘高階結(jié)構(gòu),現(xiàn)有模型不能夠有效地進(jìn)行挖掘并表示。基于正式概念分析的方法大多只停留于特征層面,而不能對(duì)結(jié)構(gòu)進(jìn)行有效表示。以圖2(b)為例,大多數(shù)方法只能表示不同的特征組合,而不能挖掘出圖2(c)這種結(jié)構(gòu)關(guān)系;
(3)針對(duì)不同的特征組和結(jié)構(gòu)組關(guān)系,現(xiàn)有模型不能夠有效地分別學(xué)習(xí)這些特征組之間的重要程度和結(jié)構(gòu)之間的重要程度,這導(dǎo)致對(duì)異質(zhì)圖的表示模型泛化能力不高。
發(fā)明內(nèi)容
本發(fā)明為了解決上述問(wèn)題,提供了一種針對(duì)不完整異質(zhì)圖的基于格的節(jié)點(diǎn)分類(lèi)方法與系統(tǒng),所述方案以不完整異質(zhì)圖的高階結(jié)構(gòu)為導(dǎo)向,通過(guò)對(duì)不完整數(shù)據(jù)中的不同的特征集和結(jié)構(gòu)集進(jìn)行統(tǒng)計(jì),通過(guò)計(jì)算特征和結(jié)構(gòu)間的偏序關(guān)系,構(gòu)建特征格和結(jié)構(gòu)格,從而實(shí)現(xiàn)挖掘出不完整異質(zhì)圖上的所有結(jié)構(gòu),在并不損失信息和引入額外噪聲數(shù)據(jù)的前提下,有效解決了不完整異質(zhì)圖上的結(jié)構(gòu)表示問(wèn)題。
根據(jù)本發(fā)明實(shí)施例的第一個(gè)方面,提供了一種針對(duì)不完整異質(zhì)圖的基于格的節(jié)點(diǎn)分類(lèi)方法,包括:
獲取不完整異質(zhì)圖,其中,所述不完整異質(zhì)圖包括節(jié)點(diǎn)、邊類(lèi)型、數(shù)目以及相關(guān)屬性字段;
根據(jù)獲得的數(shù)據(jù),計(jì)算不同的特征集和結(jié)構(gòu)集;
根據(jù)獲得的特征集和結(jié)構(gòu)集中的不同元素間的偏序關(guān)系,計(jì)算出特征偏序集和結(jié)構(gòu)偏序集;
根據(jù)得到的特征偏序集和結(jié)構(gòu)偏序集,構(gòu)建特征格和結(jié)構(gòu)格;
將特征格和結(jié)構(gòu)格中的每個(gè)單元輸入到基于格的雙注意力網(wǎng)絡(luò),輸出待預(yù)測(cè)節(jié)點(diǎn)對(duì)的預(yù)測(cè)值。
進(jìn)一步的,所述根據(jù)獲得的數(shù)據(jù),計(jì)算不同的特征集和結(jié)構(gòu)集,具體包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310071841.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于節(jié)點(diǎn)簽名的保留標(biāo)簽信息的異質(zhì)網(wǎng)絡(luò)嵌入方法
- 情感對(duì)話生成方法、裝置及情感對(duì)話模型訓(xùn)練方法、裝置
- 分析結(jié)果的生成方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 電子信息分析方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 基于元路徑學(xué)習(xí)與子圖采樣的APT網(wǎng)絡(luò)攻擊檢測(cè)方法
- 一種分類(lèi)模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于異質(zhì)圖表示學(xué)習(xí)的惡意域名檢測(cè)方法及裝置
- 基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的文本視覺(jué)問(wèn)答實(shí)現(xiàn)方法
- 圖像層次化超像素分割方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于異質(zhì)圖的文本摘要方法及裝置、存儲(chǔ)介質(zhì)和終端





