[發(fā)明專利]基于數(shù)據(jù)增強(qiáng)與多級信息最大化的圖關(guān)系數(shù)據(jù)的分類方法在審
| 申請?zhí)枺?/td> | 202310002337.5 | 申請日: | 2023-01-03 |
| 公開(公告)號: | CN115938504A | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 張瀚;趙青青;何孟遙;全雄文 | 申請(專利權(quán))人: | 南開大學(xué) |
| 主分類號: | G16C20/40 | 分類號: | G16C20/40;G16C20/30;G16C20/70;G06F18/24;G06N3/0464;G06N3/047;G06N3/048;G06N3/09 |
| 代理公司: | 北京細(xì)軟智谷知識產(chǎn)權(quán)代理有限責(zé)任公司 11471 | 代理人: | 梁亞靜 |
| 地址: | 300110*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 數(shù)據(jù) 增強(qiáng) 多級 信息 最大化 關(guān)系 分類 方法 | ||
本發(fā)明涉及一種基于數(shù)據(jù)增強(qiáng)與多級信息最大化的圖關(guān)系數(shù)據(jù)的分類方法,屬于特征提取技術(shù)領(lǐng)域。在模型構(gòu)建的過程中,進(jìn)行特征提取,對結(jié)構(gòu)圖進(jìn)行增強(qiáng)處理,增加了樣本數(shù)量,更加本質(zhì)和魯棒的特征提取提升了準(zhǔn)確性;對每個視圖利用全連接神經(jīng)網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)對圖關(guān)系數(shù)據(jù)進(jìn)行學(xué)習(xí),從而將每個視圖的節(jié)點特征信息和拓?fù)湫畔⒑喜⑥D(zhuǎn)化為局部表示和全局表示;基于多級信息最大化規(guī)則進(jìn)一步分級優(yōu)化全局表示和局部表示從而得到圖關(guān)系數(shù)據(jù)的有效表示;將最終每層的表示相加,輸入到分類器中,得到分類預(yù)測結(jié)果;同時,為了提升分類的準(zhǔn)確性,根據(jù)交叉熵分類損失函數(shù)對模型進(jìn)行監(jiān)督訓(xùn)練,提升分類準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及特征提取技術(shù)領(lǐng)域,具體涉及一種基于數(shù)據(jù)增強(qiáng)與多級信息最大化的圖關(guān)系數(shù)據(jù)的分類方法。
背景技術(shù)
在分子領(lǐng)域,通常通過節(jié)點和邊信息來表示分子的結(jié)構(gòu)圖,以便于根據(jù)節(jié)點和邊信息這些圖關(guān)系數(shù)據(jù)進(jìn)行科研研究。圖關(guān)系數(shù)據(jù)的任務(wù)主要分為兩種級別:節(jié)點級別和圖級別。節(jié)點級別的任務(wù)又可分為鏈路預(yù)測和節(jié)點分類問題,主要關(guān)注的是節(jié)點和邊層面的特征。圖級別任務(wù)不依賴于某個節(jié)點或某條邊的屬性,例如藥物分子的分類,這類問題更多地考慮整個圖的信息。
對于圖級別任務(wù),傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法很難提取圖中的特征,例如基于隨機(jī)游走的方法,它的基本思想是將圖關(guān)系數(shù)據(jù)通過隨機(jī)游走的方式處理為規(guī)則的特征向量,然后送入下游分類器中。它無法對圖關(guān)系數(shù)據(jù)中的信息直接利用,在隨機(jī)游走的過程中必然會造成信息丟失,尤其是拓?fù)湫畔⒌膿p失。
因此,相關(guān)技術(shù)中在對圖關(guān)系數(shù)據(jù)進(jìn)行特征提取過程中存在數(shù)據(jù)丟失,特征提取準(zhǔn)確度差的技術(shù)問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種基于數(shù)據(jù)增強(qiáng)與多級信息最大化的圖關(guān)系數(shù)據(jù)的分類方法,以克服目前對圖關(guān)系數(shù)據(jù)進(jìn)行特征提取過程中存在數(shù)據(jù)丟失,特征提取準(zhǔn)確度差的問題。
為實現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:
一方面,一種基于數(shù)據(jù)增強(qiáng)與多級信息最大化的圖關(guān)系數(shù)據(jù)的分類模型訓(xùn)方法,包括:
確定數(shù)據(jù)集,以所述數(shù)據(jù)集中每個樣本的基本單元為節(jié)點,以符合預(yù)設(shè)關(guān)系的基本單元之間的預(yù)設(shè)關(guān)系為邊,構(gòu)建每個樣本的結(jié)構(gòu)圖;
按照預(yù)設(shè)比例隨機(jī)去除所述結(jié)構(gòu)圖的部分邊后,將剩余圖作為增強(qiáng)結(jié)構(gòu)圖,所述結(jié)構(gòu)圖和所述增強(qiáng)結(jié)構(gòu)圖構(gòu)成雙視圖;
對于每個視圖,分別使用全連接神經(jīng)網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)對全圖關(guān)系數(shù)據(jù)進(jìn)行學(xué)習(xí),得到每個視圖的節(jié)點特征信息和拓?fù)湫畔ⅲ?/p>
融合所述拓?fù)湫畔⒑吞卣餍畔ⅲ@取對應(yīng)視圖的局部表示和全局表示;
考慮結(jié)構(gòu)圖和增強(qiáng)結(jié)構(gòu)圖的全局表示和局部表示之間的約束,基于信息最大化規(guī)則,得到損失函數(shù);
將圖卷積神經(jīng)網(wǎng)絡(luò)中每層的表示進(jìn)行相加,并將相加后的表示輸入分類器,輸出所述結(jié)構(gòu)圖的分類結(jié)果;
根據(jù)所述分類結(jié)果和標(biāo)簽計算交叉熵分類損失函數(shù),其中,所述標(biāo)簽為根據(jù)結(jié)構(gòu)圖的分類預(yù)先標(biāo)注;根據(jù)所述交叉熵分類損失函數(shù)對模型進(jìn)行監(jiān)督訓(xùn)練,當(dāng)所述交叉熵分類損失函數(shù)穩(wěn)定時,得到訓(xùn)練好的目標(biāo)模型。
可選的,所述數(shù)據(jù)集包括化合物集,所述基本單元包括預(yù)設(shè)原子組;以所述化合物中的預(yù)設(shè)原子組為節(jié)點,以兩個預(yù)設(shè)原子組為邊,構(gòu)建每個化合物的結(jié)構(gòu)圖;其中,所述預(yù)設(shè)原子組中包括至少一個原子;或,
所述數(shù)據(jù)集包括對象實體集,所述基本單元包括事物;以所述事物為節(jié)點,以兩個事物之間的關(guān)系為邊,構(gòu)建每個對象實體的結(jié)構(gòu)圖。
可選的,所述化合物包括高分子化合物和普通化合物,其中,所述普通化合物為非高分子化合物;所述高分子化合物包括蛋白質(zhì)和非蛋白質(zhì)高分子化合物。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南開大學(xué),未經(jīng)南開大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310002337.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實鏡片、增強(qiáng)現(xiàn)實眼鏡及增強(qiáng)現(xiàn)實成像方法





