[發(fā)明專利]基于稀疏采樣進(jìn)行端到端訓(xùn)練的視頻問答方法與系統(tǒng)有效
| 申請?zhí)枺?/td> | 202111042753.5 | 申請日: | 2021-09-07 |
| 公開(公告)號: | CN113807222B | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計)人: | 王若梅;歐銳植;周凡 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510006 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 稀疏 采樣 進(jìn)行 端到端 訓(xùn)練 視頻 問答 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于稀疏采樣進(jìn)行端到端訓(xùn)練的視頻問答方法。包括:對輸入的視頻進(jìn)行稀疏采樣得到相同時長的N個視頻片段;將采樣得到的每一個視頻片段進(jìn)行視覺編碼、時間融合、位置嵌入,生成該視頻片段的視頻特征序列;對文本信息編碼得到詞向量序列,并對其進(jìn)行位置嵌入;將N個視頻片段特征序列和詞向量序列進(jìn)行交叉模型融合和預(yù)測,得到N個預(yù)測結(jié)果,最后再將N個預(yù)測結(jié)果融合得到最終答案;輸入視頻和問題到模型中預(yù)測問題答案。本發(fā)明也公開了一種基于稀疏采樣進(jìn)行端到端訓(xùn)練的視頻問答的系統(tǒng)、設(shè)備及存儲介質(zhì)。本發(fā)明通過稀疏采樣解決視頻問答任務(wù)的方法,相對于基于注意力模型視頻問答方法,本發(fā)明模型收斂更快,預(yù)測準(zhǔn)確性更高。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)視覺,自然語言處理技術(shù)領(lǐng)域,具體涉及一種基于稀疏采樣進(jìn)行端到端訓(xùn)練的視頻問答的方法、計算機(jī)設(shè)備及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
近年來,視覺和語言理解任務(wù)因其包含了真實(shí)世界的動態(tài)場景信息而受到越來越多的關(guān)注。它有助于有效聚合海量數(shù)據(jù),為在線學(xué)習(xí)提供教育資源。視頻問答在深度視覺和語言理解方面起著至關(guān)重要的作用。視頻問答的主要目標(biāo)是學(xué)習(xí)一個模型,該模型需要理解視頻和問題中的語義信息,以及它們的語義關(guān)聯(lián),以預(yù)測給定問題的正確答案。在視頻問答中應(yīng)用了多種人工智能技術(shù),包括對象檢測和分割、特征提取、內(nèi)容理解、分類等。綜合表現(xiàn)的評估指標(biāo)是答對問題的百分比。視頻問答可以應(yīng)用于許多實(shí)際應(yīng)用中,如用戶自由提問的視頻內(nèi)容檢索,視障人士的視頻內(nèi)容理解等。視頻問答打破了視覺和語言的語義鴻溝,從而促進(jìn)了視覺理解和人機(jī)交互。
視頻問答的研究是推動計算機(jī)視覺和自然語言處理研究領(lǐng)域發(fā)展的一項(xiàng)重要而具有挑戰(zhàn)性的任務(wù)。目前,視頻問答仍有大量的空間進(jìn)行進(jìn)一步的研究和性能改進(jìn)。現(xiàn)有的解決方法主要是利用其他任務(wù)中已訓(xùn)練好的視覺和語言模型來從視頻和問答對中提取密集特征,然后用這些特征去訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。但由于其他任務(wù)中已訓(xùn)練好的模型往往是次優(yōu)的,提取出的特征可能缺失了回答問題所需的信息,并不能完全契合視頻問答任務(wù)的要求。而且存在一個突出的性能問題是視頻包含的數(shù)據(jù)量大,從完整視頻中提取出的特征多,進(jìn)行模型訓(xùn)練時需要大量的資源設(shè)備支持,耗費(fèi)的時間長,更無法支持端到端的模型訓(xùn)練。
目前的現(xiàn)有技術(shù)之一,一種基于注意力模型的視頻問答方法。該方法基于編碼解碼的框架進(jìn)行設(shè)計,采用端到端的方式學(xué)習(xí)視頻的視覺信息和語義信息。該發(fā)明自主設(shè)計幀模型來提取視頻的特征向量。在編碼階段,通過長短期記憶網(wǎng)絡(luò)學(xué)習(xí)視頻的場景特征表示,并將其作為解碼階段文本模型的初始狀態(tài)輸入,同時,在文本模型中加入的注意力機(jī)制能夠有效的增強(qiáng)視頻幀和問題之間的聯(lián)系,更好的解析出視頻的語義信息。該方法的缺點(diǎn)是從視頻中提取的特征向量數(shù)據(jù)量大,當(dāng)數(shù)據(jù)集非常大時難以進(jìn)行端到端訓(xùn)練。
目前的現(xiàn)有技術(shù)之二,利用結(jié)合關(guān)系互動的視頻轉(zhuǎn)換器解決視頻問答任務(wù)的方法。該方法設(shè)計一種利用結(jié)合關(guān)系互動的視頻轉(zhuǎn)換器模型完成對于視頻問答任務(wù)的答案獲取。通過訓(xùn)練得到最終的視頻轉(zhuǎn)換器模型,利用該模型生成視頻問答任務(wù)的答案。該方法的缺點(diǎn)是提出的視頻轉(zhuǎn)換器模型無法準(zhǔn)確提取到回答問題所需要的信息,導(dǎo)致生成問題的答案準(zhǔn)確率較低。
目前的現(xiàn)有技術(shù)之三,利用自適應(yīng)的時空圖模型通過提升視頻-語言表征學(xué)習(xí)來解決視頻問答問題的方法及其系統(tǒng)。該方案首先針對一組視頻、問題、答案訓(xùn)練集,使用目標(biāo)檢測器獲取每個視頻幀的目標(biāo)級別的信息。其次,對于目標(biāo)級別的信息,使用自適應(yīng)的時空圖模型學(xué)到目標(biāo)的動態(tài)表達(dá)。最后,使用Transformer模型學(xué)習(xí)視覺和文本信息之間的聯(lián)系,增強(qiáng)視覺問答的性能。該方案的缺點(diǎn)是其使用預(yù)訓(xùn)練好的目標(biāo)檢測器來提取視頻的信息和特征,因?yàn)槟繕?biāo)檢測器是使用其他任務(wù)的數(shù)據(jù)集進(jìn)行訓(xùn)練的,提取出的特征可能缺失了回答問題所需的信息,導(dǎo)致最終生成的答案不準(zhǔn)確,不完整。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111042753.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





