[發(fā)明專利]一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)分類方法有效
| 申請?zhí)枺?/td> | 202010412886.6 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111985520B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計)人: | 王魏;李述 | 申請(專利權(quán))人: | 南京智谷人工智能研究院有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06K9/62;G06N3/04;G06N3/08;G06V10/774 |
| 代理公司: | 南京新慧恒誠知識產(chǎn)權(quán)代理有限公司 32424 | 代理人: | 謝雋雯 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖卷 神經(jīng)網(wǎng)絡(luò) 多模態(tài) 分類 方法 | ||
本發(fā)明公開了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)分類方法,包括以下步驟:(一)首先需要用戶準(zhǔn)備好一個對象庫,其中每個對象包含個模態(tài),通過人工標(biāo)注的方法為庫中的少量對象提供一個類別標(biāo)記,這些有類別標(biāo)記的對象稱為初始的有標(biāo)記訓(xùn)練數(shù)據(jù),它們和剩余的大量未標(biāo)記對象一同構(gòu)成訓(xùn)練數(shù)據(jù)集;本發(fā)明通過創(chuàng)新的多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)綜合考慮了不同模態(tài)的圖結(jié)構(gòu)信息,在多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)的每一層中通過分配可訓(xùn)練的權(quán)值,使得每個模態(tài)所學(xué)的表示能夠逐步考慮其它模態(tài)的結(jié)構(gòu)信息。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機(jī)科學(xué)與技術(shù)中人工智能領(lǐng)域技術(shù)領(lǐng)域,具體涉及一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)分類方法。
背景技術(shù)
近年來,實際應(yīng)用中出現(xiàn)著越來越多的多模態(tài)數(shù)據(jù),例如,互聯(lián)網(wǎng)中的多媒體數(shù)據(jù)往往包含多個模態(tài)信息:視頻、圖像以及周圍出現(xiàn)的文本信息;網(wǎng)頁數(shù)據(jù)也包含多個模態(tài)信息:網(wǎng)頁自身的文本信息和鏈接到網(wǎng)頁的超鏈接信息。這些多模態(tài)數(shù)據(jù)蘊含著巨大的經(jīng)濟(jì)價值,同時利用這些多模態(tài)數(shù)據(jù)往往能夠獲得比單模態(tài)數(shù)據(jù)更好的結(jié)果。例如,在基于信息流的用戶內(nèi)容推薦中,可以同時考慮信息流中的不同模態(tài)信息(例如圖片、文本)來為用戶推薦其感興趣的內(nèi)容。在實際應(yīng)用中,我們很容易從不同模態(tài)中發(fā)現(xiàn)數(shù)據(jù)的多重結(jié)構(gòu)信息,例如用戶對特定的某一類相似的圖片都表現(xiàn)出興趣,而同時這些用戶對另外一類相似的文本表現(xiàn)出興趣,利用這些基于多模態(tài)的結(jié)構(gòu)信息,能夠進(jìn)一步地提升性能。另一方面,圖卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)D結(jié)構(gòu)信息嵌入到神經(jīng)網(wǎng)絡(luò)中,且適合處理大規(guī)模數(shù)據(jù),但并不能被直接應(yīng)用到多模態(tài)場景中,實際應(yīng)用中的對象經(jīng)常具有多模態(tài)信息,但是傳統(tǒng)的多模態(tài)方法只是在多個模態(tài)上分別訓(xùn)練學(xué)習(xí)器然后將其集成,這樣的方式容易忽略不同模態(tài)中有用的結(jié)構(gòu)信息為此我們提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)分類方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)分類方法,以解決上述背景技術(shù)中提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)分類方法,包括以下步驟:
(一)首先需要用戶準(zhǔn)備好一個對象庫,其中每個對象包含V個模態(tài)。接下來通過人工標(biāo)注的方法為庫中的少量對象提供一個類別標(biāo)記,這些有類別標(biāo)記的對象稱為初始的有標(biāo)記訓(xùn)練數(shù)據(jù),它們和剩余的大量未標(biāo)記對象一同構(gòu)成訓(xùn)練數(shù)據(jù)集。
(二)通過特征提取算法,將訓(xùn)練對象庫中的對象轉(zhuǎn)化成相應(yīng)的特征表示,即提取對象庫中對象的特征,將所有對象轉(zhuǎn)化成相應(yīng)的特征向量。由于對象包含V個模態(tài),最終得到的每個對象的特征向量也分為V個部分。
(三)對象的特征提取方法也有很多種,例如對于網(wǎng)頁中的一段文本,文本中的每個詞出現(xiàn)的次數(shù)都可以作為該對象的一個特征,文本的長度也可以作為該網(wǎng)頁的一個特征。假設(shè)兩個模態(tài)上特征的個數(shù)分別為d1和d2,那么每個對象就可以對應(yīng)到d1和d2維歐式空間的兩個特征向量。
(四)將訓(xùn)練數(shù)據(jù)集和選定的基分類器類型輸入到本發(fā)明提出的多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法中,經(jīng)過訓(xùn)練后就可以得到最終的分類器。
(五)在預(yù)測階段,用戶根據(jù)待測對象在V個模態(tài)上的特征向量分別添加k條最近鄰邊指向?qū)ο髱?,再講得到的新圖與得到特征向量分別輸入給訓(xùn)練得到的V個分類器,分類器就會給用戶返回該對象的預(yù)測結(jié)果,然后在V個預(yù)測結(jié)果中選擇置信度較高的那個作為最終標(biāo)記輸出。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過創(chuàng)新的多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)綜合考慮了不同模態(tài)的圖結(jié)構(gòu)信息,在多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)的每一層中通過分配可訓(xùn)練的權(quán)值,使得每個模態(tài)所學(xué)的表示能夠逐步考慮其它模態(tài)的結(jié)構(gòu)信息。此外,本發(fā)明雖然需要建圖,但是可以被用于歸納式的學(xué)習(xí)場景,在訓(xùn)練時無需得到待測樣本。
附圖說明
圖1是本發(fā)明的流程圖;
圖2是本發(fā)明中多模態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京智谷人工智能研究院有限公司,未經(jīng)南京智谷人工智能研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010412886.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種腸胃鏡配套清潔達(dá)標(biāo)圖譜
- 一種混合高低階圖卷積傳播系統(tǒng)
- 基于圖結(jié)構(gòu)矩陣特征向量的圖卷積神經(jīng)網(wǎng)絡(luò)生成方法
- 基于骨骼關(guān)節(jié)點的圖卷積行為識別方法及裝置
- 一種基于網(wǎng)絡(luò)結(jié)構(gòu)增強(qiáng)的圖卷積模型防御方法、裝置和系統(tǒng)
- 一種基于骨架的雙流自適應(yīng)圖卷積網(wǎng)絡(luò)行為識別方法
- 一種基于時空圖卷積網(wǎng)絡(luò)的人臉檢測方法及裝置
- 一種基于權(quán)重不確定的圖卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法、裝置
- 一種基于圖自編碼器的融合子空間聚類方法及系統(tǒng)
- 基于圖卷積神經(jīng)網(wǎng)絡(luò)交互的推薦方法及系統(tǒng)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





