[發明專利]一種面向模態非完全對齊的數據特征學習方法有效
| 申請號: | 202110345293.7 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113033438B | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 彭璽;楊謀星;林義杰 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V10/82;G06K9/62;G10L25/30;G06N3/04 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 610065 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 模態非 完全 對齊 數據 特征 學習方法 | ||
1.一種面向模態非完全對齊的數據特征學習方法,其特征在于,包括如下步驟:
S1、定義模態非完全對齊的視頻圖像模態數據集和聲音模態數據集,并選擇其中任意模態為對齊基準模態,另一個模態為待對齊模態;
S2、將視頻圖像模態數據集和聲音模態數據集中的對齊部分的數據作為正樣本對,并以所選擇的對齊基準模態的樣本為基準構建負樣本對;
S3、將所構建的正、負樣本對分別輸入兩個結構不相同的神經網絡中,具體為,將正負樣本對中屬于圖像視頻模態數據集的數據輸入第一個神經網絡,將正負樣本對中屬于聲音模態數據集中的數據輸入第二個神經網絡中,分別計算圖像視頻模態數據集和聲音模態數據集的公共表示;
S4、利用所獲得的公共表示計算損失函數,并利用計算得到的損失函數對兩個神經網絡進行訓練;
S5、將視頻圖像模態數據集和聲音模態數據集中未對齊部分樣本數據輸入訓練得到的神經網絡,校正未對齊部分樣本數據的對齊關系,使其重新對齊。
2.根據權利要求1所述的一種面向模態非完全對齊的數據特征學習方法,其特征在于,所述S1中定義的模態非完全對齊的視頻圖像模態數據集和聲音模態數據集分別表示為:
{X(1)}={A(1),U(1)};
{X(2)}={A(2),U(2)};
其中,{X(1)}為模態非完全對齊的視頻圖像模態數據集,表示視頻圖像模態中對齊部分的數據集,表示{A(1)}中對齊部分數據集中的數據樣本,j為對齊部分樣本數量;表示視頻圖像模態中未對齊部分的數據集,表示{U(1)}中未對齊部分數據集中的數據樣本,k為其樣本數量;{X(2)}為模態非完全對齊的聲音模態數據集,表示聲音模態中對齊部分的數據集,表示{A(2)}中對齊部分數據集中的數據樣本,n為對齊部分樣本數量;表示聲音模態中未對齊部分的數據集,表示{U(2)}中未對齊部分數據集中的數據樣本,m為其樣本數量。
3.根據權利要求2所述的一種面向模態非完全對齊的數據特征學習方法,其特征在于,所述S2中構建負樣本對的具體方法為:
S21、將視頻圖像模態數據集和聲音模態數據集中的對齊部分的數據作為正樣本對;
S22、將對齊基準模態中的每個對齊部分的數據均作為一個錨點,并在待對齊模態中的對齊部分的數據集中隨機采樣多個數據樣本作與每個錨點構成負樣本對。
4.根據權利要求3所述的一種面向模態非完全對齊的數據特征學習方法,其特征在于,所述步驟S3中正負樣本的公共表示分別為:
Z(1)=f(1)(A1);
Z(2)=f(2)(A2);
其中,f(1)為針對視頻圖像模態所構造的神經網絡,f(2)為針對聲音模態所構造的神經網絡;A1為正負樣本對中屬于視頻圖像模態中的樣本集合,Z(1)為A1通過神經網絡f(1)學得的公共表示;A2為正負樣本對中屬于聲音模態中的樣本集合,Z(2)為A2通過神經網絡f(2)學得的公共表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110345293.7/1.html,轉載請聲明來源鉆瓜專利網。





