[發明專利]一種基于圖卷積神經網絡的多模態分類方法有效
| 申請號: | 202010412886.6 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111985520B | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 王魏;李述 | 申請(專利權)人: | 南京智谷人工智能研究院有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06K9/62;G06N3/04;G06N3/08;G06V10/774 |
| 代理公司: | 南京新慧恒誠知識產權代理有限公司 32424 | 代理人: | 謝雋雯 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖卷 神經網絡 多模態 分類 方法 | ||
1.一種基于圖卷積神經網絡的多模態分類方法,包括以下步驟:
(一)建立一個對象庫作為訓練數據集,其中對象庫包含n個對象,給對象庫中的少量對象賦予一個類別標記,用l表示有標記的對象數目,u表示未標記的對象數目,C表示類別標記數目;
(二)通過特征提取算法,提取對象庫中不同模態對應的特征,假設具有V個模態,為每個對象生成特征向量對,特征1,特征2,...,特征V;
(三)為每一個模態的特征建立一個k-近鄰圖,對于模態v,其鄰接矩陣記作Av,v=1,2,…,V;
(四)將數據的特征向量以及每一個模態的k-近鄰圖輸入到多模態圖卷積神經網絡中,為每個模態分別訓練得到一個分類器;
(五)獲取待測對象,用u表示待測對象數目并用步驟(二)中相同的方法得到其特征向量對,用步驟(三)中的建圖方法將新的樣本加入到圖中;
(六)將各個模態上的特征向量及所有更新后的k-近鄰圖輸入步驟(四)所訓練得到的對應分類器中,獲得V個預測標記,并輸出其中置信度較高的那個作為最終標記;
所述步驟(四)中使用了新的多模態圖卷積神經網絡,其具體結構為:
在訓練時,所實用的在第v個模態中訓練的網絡:
(1)隱層結構為:對于k∈{1,2,...,Kv-1},其中是第v個網絡在第K層的表示,由迭代生成,是可訓練參數,
混合圖卷積被定義為其中是圖卷積權重,是Dw中元素開方取倒數后對應的矩陣,Dw=∑jAv(ij),其中Av(ij)代表Av的第i行第j個元素;w表示第w個模態,取值從1到V的正整數;
(2)輸出層結構為:其中Kv是第v個網絡的多模態圖卷積層層數;
在預測時,所使用的結構有:
S1先集成各模態輸出表示其中,表示fv在v=1是的向量轉置,T作為上標表示矩陣轉置;
S2再根據對各類的預測值輸出結果其中,表示矩陣中第i行第j列的元素;
所述步驟(四),使用多模態圖卷積神經網絡作為分類器,其具體步驟為:
S1最大迭代輪數R,圖卷積網絡層數;初始化多模態圖卷積神經網絡f1,f2,...,fV,將其中圖卷積層中的參數初始化為
S2若rR,轉到步驟5);否則繼續訓練轉到步驟3);
S3分別為模態v=1,2,...,V,固定使用有標記數據及損失函數計算損失,并使用優化器優化算法更新網絡中參數所述優化器包括SGD或者Adam;
S4通過分別為模態v=1,2,...,V,固定使用有標記數據及損失函數計算損失,并使用優化器更新網絡中參數其中根據梯度下降算法更新,之后令迭代計數器r加1,轉到步驟2).
S5輸出得到的網絡f1,f2,...,fV。
2.如權利要求1所述的基于圖卷積神經網絡的多模態分類方法,其特征在于,所述步驟(五),能夠歸納式地預測待測樣本的標記,無需在訓練時得到待測樣本信息,其具體步驟為:
S1對于待預測的u個樣本,首先利用步驟(二)中的方法提取特征;
S2再利用步驟(三)所使用的同樣的距離度量為每個待預測樣本在對象庫中尋找k個最近的鄰居并對應的新圖Av′賦權;
S3預測時使用fv(X′v,A′v),v=1,2,...,V的結果,其中是待測樣本的特征矩陣;
S4先集成各模態輸出表示
S5再根據對各類的預測值輸出結果其中i∈n+1,...,n+u對應的是待預測樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京智谷人工智能研究院有限公司,未經南京智谷人工智能研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010412886.6/1.html,轉載請聲明來源鉆瓜專利網。





