[發(fā)明專利]一種面向模態(tài)非完全對(duì)齊的數(shù)據(jù)特征學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110345293.7 | 申請(qǐng)日: | 2021-03-31 |
| 公開(公告)號(hào): | CN113033438B | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計(jì))人: | 彭璽;楊謀星;林義杰 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V10/774;G06V10/82;G06K9/62;G10L25/30;G06N3/04 |
| 代理公司: | 北京正華智誠(chéng)專利代理事務(wù)所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 610065 四*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 模態(tài)非 完全 對(duì)齊 數(shù)據(jù) 特征 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種面向模態(tài)非完全對(duì)齊的數(shù)據(jù)特征學(xué)習(xí)方法,包括定義多模態(tài)數(shù)據(jù)集,并利用對(duì)齊部分的數(shù)據(jù)中包含的信息處理未對(duì)齊數(shù)據(jù),通過(guò)對(duì)比學(xué)習(xí)實(shí)現(xiàn)模態(tài)重新對(duì)齊目標(biāo),同時(shí)學(xué)到重新對(duì)齊過(guò)后的數(shù)據(jù)的特征。為達(dá)到上述目的,本方案利用所提出的對(duì)比學(xué)習(xí)損失函數(shù)指導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。完成對(duì)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練后,將不對(duì)齊的多模態(tài)數(shù)據(jù)輸入到該模型當(dāng)中,通過(guò)選擇距離最近的樣本作為重新對(duì)齊過(guò)的樣本,即可完成類別級(jí)別的非完全對(duì)齊的多模態(tài)數(shù)據(jù)的重新對(duì)齊并且同時(shí)學(xué)到對(duì)齊后的數(shù)據(jù)的特征。本發(fā)明在聚類和分類任務(wù)的常用性能指標(biāo)上取得了明顯進(jìn)步,同時(shí)大大降低了時(shí)間和內(nèi)存消耗,有利于后續(xù)的聚類、分類識(shí)別或數(shù)據(jù)檢索等任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及特征學(xué)習(xí)領(lǐng)域,具體涉及一種面向模態(tài)非完全對(duì)齊的數(shù)據(jù)特征學(xué)習(xí)方法。
背景技術(shù)
目前多模態(tài)特征學(xué)習(xí)技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域。在檢索應(yīng)用中,通過(guò)輸入一段文字就可以檢索到對(duì)應(yīng)文字描述的圖片,其核心就是跨模態(tài)的特征學(xué)習(xí)。在社交網(wǎng)絡(luò)分析中,可以將每個(gè)人看做一個(gè)實(shí)例,將他們的社交應(yīng)用如(微信朋友圈)中的文字和配圖分別看做兩個(gè)模態(tài)的樣本,通過(guò)對(duì)不同人的文字模態(tài)和配圖模態(tài)進(jìn)行多模態(tài)特征學(xué)習(xí),能夠?qū)⒕哂蓄愃茞?ài)好的人聚合在一起,基于此,可以進(jìn)一步進(jìn)行行為分析和個(gè)性推薦等應(yīng)用。在語(yǔ)義導(dǎo)航中,輸入一段話給機(jī)器人,機(jī)器人就能分析所給定的描述并結(jié)合視覺(jué)感知進(jìn)行特征學(xué)習(xí),完成描述中給定的相關(guān)任務(wù)。這些多模態(tài)特征學(xué)習(xí)技術(shù)之所以取得成功主要得益于滿足兩個(gè)假設(shè)的高質(zhì)量多模態(tài)數(shù)據(jù)的存在。一是數(shù)據(jù)的完備性假設(shè),即所有的樣本須在所有的模態(tài)中都存在,不能存在數(shù)據(jù)缺失的情況;二是模態(tài)對(duì)齊性假設(shè),即不同的模態(tài)中樣本之間存在正確的對(duì)應(yīng)關(guān)系。換而言之,在目前的技術(shù)基礎(chǔ)上,要對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征學(xué)習(xí),需要預(yù)先對(duì)數(shù)據(jù)進(jìn)行篩選和對(duì)齊以保證樣本的完備性和對(duì)齊性。但是在這些實(shí)際場(chǎng)景中,由于時(shí)間和空間的復(fù)雜性和不協(xié)調(diào)性,要收集完整的、完全對(duì)齊的多模態(tài)數(shù)據(jù)是一項(xiàng)十分困難的任務(wù)。比如,若要對(duì)在線慕課教學(xué)質(zhì)量進(jìn)行評(píng)估,需要將視頻畫面和音頻輸入給基于多模態(tài)學(xué)習(xí)的系統(tǒng)進(jìn)行聯(lián)合評(píng)估,但是視頻畫面和音頻往往不是一一對(duì)齊(對(duì)應(yīng))的關(guān)系,這會(huì)將顯著降低許多模態(tài)方法的性能。
盡管目前存在少數(shù)多模態(tài)數(shù)據(jù)對(duì)齊的相關(guān)方法,但他們都是基于實(shí)例級(jí)別的對(duì)齊即嘗試恢復(fù)同一樣本(元素)在不同模態(tài)之間的對(duì)齊關(guān)系,所需要的計(jì)算和存儲(chǔ)消耗極大,而且效果往往不佳。例如,運(yùn)行在Nvidia 2080TiGPU上,現(xiàn)有的方法如PVC等無(wú)法處理大規(guī)模數(shù)據(jù)(如擁有兩個(gè)模態(tài),每個(gè)模態(tài)分別為60000個(gè)樣本的NoisyMNIST數(shù)據(jù)集)。此外,對(duì)于規(guī)模較小的數(shù)據(jù),PVC往往也需要花費(fèi)數(shù)個(gè)小時(shí)進(jìn)行模態(tài)對(duì)齊并且占用大量?jī)?nèi)存資源,而且經(jīng)過(guò)對(duì)齊后得到的數(shù)據(jù)表示往往在后續(xù)的任務(wù)如分類、聚類等上表現(xiàn)不佳。更進(jìn)一步的,當(dāng)這些不對(duì)齊的模態(tài)同時(shí)也存在數(shù)據(jù)缺失情況時(shí)(如有些人朋友圈只發(fā)文字,不配圖,此時(shí)這些人便缺少了圖片的模態(tài)),就無(wú)法進(jìn)行實(shí)例級(jí)別的對(duì)齊。因此,相比于基于實(shí)例級(jí)別的對(duì)齊,我們的研究和設(shè)計(jì)注重于進(jìn)行類別級(jí)別的對(duì)齊(即將跨模態(tài)的同類別樣本進(jìn)行對(duì)齊),并同時(shí)進(jìn)行數(shù)據(jù)的特征學(xué)習(xí)。實(shí)踐證明,我們的方法可以在極快的時(shí)間內(nèi)以極少的存儲(chǔ)開銷處理不同規(guī)模的數(shù)據(jù),并且在后續(xù)的任務(wù),如分類和聚類等中取得較高的效果。同時(shí),當(dāng)不對(duì)齊的模態(tài)同時(shí)也存在數(shù)據(jù)缺失情況時(shí),我們的方法也能處理。因此,相比于實(shí)例級(jí)別的對(duì)齊方法,我們的方法具有更高的應(yīng)用前景和實(shí)際價(jià)值
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明提出一種面向模態(tài)非完全對(duì)齊的數(shù)據(jù)特征學(xué)習(xí)方法,通過(guò)下述技術(shù)方案實(shí)現(xiàn):
一種面向模態(tài)非完全對(duì)齊的數(shù)據(jù)特征學(xué)習(xí)方法,包括如下步驟:
S1、定義模態(tài)非完全對(duì)齊的視頻圖像模態(tài)數(shù)據(jù)集和聲音模態(tài)數(shù)據(jù)集,并選擇其中任意模態(tài)為對(duì)齊基準(zhǔn)模態(tài),另一個(gè)模態(tài)為待對(duì)齊模態(tài);
S2、將視頻圖像模態(tài)數(shù)據(jù)集和聲音模態(tài)數(shù)據(jù)集中的對(duì)齊部分的數(shù)據(jù)作為正樣本對(duì),并以所選擇的對(duì)齊基準(zhǔn)模態(tài)的樣本為基準(zhǔn)構(gòu)建負(fù)樣本對(duì);
S3、將所構(gòu)建的正、負(fù)樣本分別輸入兩個(gè)結(jié)構(gòu)不相同的神經(jīng)網(wǎng)絡(luò)中,計(jì)算正負(fù)樣本的公共表示;
S4、利用所獲得的公共表示計(jì)算損失函數(shù),并利用計(jì)算得到的損失函數(shù)對(duì)兩個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110345293.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種聲激勵(lì)非接觸式模態(tài)試驗(yàn)系統(tǒng)及方法
- 一種減弱彎曲振動(dòng)圓盤非諧振模態(tài)干擾的方法
- 基于變分模態(tài)分解的激光雷達(dá)回波信號(hào)去噪方法
- 一種計(jì)及非共振傳輸?shù)闹懈哳l局部動(dòng)響應(yīng)預(yù)示方法
- 一種基于模態(tài)部分耦合假設(shè)的輻射聲功率的計(jì)算方法
- 載貨汽車車身模態(tài)非接觸激勵(lì)與非接觸測(cè)量獲取方法
- 一種跨模態(tài)人頭檢測(cè)方法及裝置
- 面向模態(tài)非完全對(duì)齊的數(shù)據(jù)聚類方法
- 基于擴(kuò)充模態(tài)矩陣的間隙結(jié)構(gòu)動(dòng)力學(xué)模型降階方法及系統(tǒng)
- 一種基于最小二乘法的材料彈性模量參數(shù)的求解方法





