[發(fā)明專利]基于注意力回歸的視頻時序句子定位方法及裝置在審
| 申請?zhí)枺?/td> | 201810367989.8 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN108647255A | 公開(公告)日: | 2018-10-12 |
| 發(fā)明(設(shè)計)人: | 朱文武;袁藝天 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 句子 注意力 加權(quán)特征 視頻時序 視頻 定位方法及裝置 回歸 句子內(nèi)容 權(quán)值向量 視頻片段 卷積神經(jīng)網(wǎng)絡(luò) 定位準(zhǔn)確性 對視頻片段 上下文信息 注意力機(jī)制 定位過程 定位結(jié)果 記憶網(wǎng)絡(luò) 詞向量 多模態(tài) 魯棒性 權(quán)重 對稱 三維 關(guān)聯(lián) 輸出 | ||
1.一種基于注意力回歸的視頻時序句子定位方法,其特征在于,包括以下步驟:
根據(jù)三維卷積神經(jīng)網(wǎng)絡(luò)和Glove詞向量機(jī)制,并在此基礎(chǔ)上利用雙向長短時記憶網(wǎng)絡(luò)對視頻片段和句子進(jìn)行編碼,以表征視頻片段內(nèi)容和句子內(nèi)容;
根據(jù)所述視頻片段內(nèi)容和句子內(nèi)容通過多模態(tài)注意力機(jī)制建立視頻與句子之間的對稱關(guān)聯(lián),以獲取視頻和句子的注意力權(quán)值向量與注意力加權(quán)特征;
根據(jù)所述視頻和句子的注意力權(quán)值向量或注意力加權(quán)特征,通過基于注意力權(quán)重的回歸機(jī)制或基于注意力加權(quán)特征的回歸機(jī)制輸出得到視頻時序句子的定位結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于注意力回歸的視頻時序句子定位方法,其特征在于,所述根據(jù)三維卷積神經(jīng)網(wǎng)絡(luò)和Glove詞向量機(jī)制,并在此基礎(chǔ)上利用雙向長短時記憶網(wǎng)絡(luò)對視頻片段和句子進(jìn)行編碼,以表征視頻片段內(nèi)容和句子內(nèi)容,進(jìn)一步包括:
表征所述視頻片段內(nèi)容和融合全局視頻句子的上下文信息,并采用Glove詞向量和雙向長短時記憶網(wǎng)絡(luò)根據(jù)句子的上下文信息表征句子的每個單詞。
3.根據(jù)權(quán)利要求1所述的基于注意力回歸的視頻時序句子定位方法,其特征在于,所述多模態(tài)注意力機(jī)制包括:
根據(jù)句子特征指導(dǎo)生成所述視頻注意力權(quán)值向量與所述注意力加權(quán)視頻特征,以獲取與句子語義關(guān)聯(lián)緊密的關(guān)鍵視頻內(nèi)容;
根據(jù)所述視頻片段內(nèi)容指導(dǎo)生成句子注意力權(quán)值向量與注意力加權(quán)句子特征,以獲取句子中關(guān)于時序定位的關(guān)鍵線索。
4.根據(jù)權(quán)利要求1所述的基于注意力回歸的視頻時序句子定位方法,其特征在于,所述根據(jù)所述視頻和句子的注意力權(quán)值向量或注意力加權(quán)特征,通過基于注意力權(quán)重的回歸機(jī)制或基于注意力加權(quán)特征的回歸機(jī)制輸出得到視頻時序句子的定位結(jié)果,進(jìn)一步包括:
基于所述注意力權(quán)重的回歸以所述視頻注意力權(quán)值向量作為輸入,利用多層全連接操作回歸句子所指示的視頻內(nèi)容在全局視頻中的相對位置;
基于所述注意力加權(quán)特征的回歸則先融合所述注意力加權(quán)視頻特征和所述注意力加權(quán)句子特征,獲得多模態(tài)注意力加權(quán)特征,再以多模態(tài)注意力加權(quán)特征作為輸入,利用多層全連接操作回歸句子所指示的視頻內(nèi)容在全局視頻中的相對位置。
5.根據(jù)權(quán)利要求1-4任一項所述的基于注意力回歸的視頻時序句子定位方法,其特征在于,還包括:
根據(jù)注意力回歸損失函數(shù)和注意力校準(zhǔn)損失函數(shù)通過反向傳播算法迭代地訓(xùn)練模型參數(shù),以得到所述基于注意力回歸的視頻時序句子定位方法的模型。
6.一種基于注意力回歸的視頻時序句子定位裝置,其特征在于,包括以下步驟:
表征模塊,用于根據(jù)三維卷積神經(jīng)網(wǎng)絡(luò)和Glove詞向量機(jī)制,進(jìn)一步通過雙向長短時記憶網(wǎng)絡(luò)對視頻片段和句子內(nèi)容進(jìn)行編碼,以表征視頻片段和句子內(nèi)容;
獲取模塊,用于根據(jù)所述視頻片段內(nèi)容和句子內(nèi)容通過多模態(tài)注意力機(jī)制建立視頻與句子之間的對稱關(guān)聯(lián),以獲取視頻和句子的注意力權(quán)值向量與注意力加權(quán)特征;
定位模塊,用于根據(jù)所述視頻和句子的注意力權(quán)值向量或注意力加權(quán)特征,通過基于注意力權(quán)重的回歸機(jī)制或基于注意力加權(quán)特征的回歸機(jī)制輸出得到視頻時序句子的定位結(jié)果。
7.根據(jù)權(quán)利要求6所述的基于注意力回歸的視頻時序句子定位裝置,其特征在于,所述表征模塊還用于:
表征所述視頻片段內(nèi)容的和融合全局視頻句子的上下文信息,并采用Glove詞向量和雙向長短時記憶網(wǎng)絡(luò)根據(jù)句子的上下文信息表征句子的每個單詞。
8.根據(jù)權(quán)利要求6所述的基于注意力回歸的視頻時序句子定位裝置,其特征在于,所述獲取模塊還用于:
根據(jù)句子特征指導(dǎo)生成所述視頻注意力權(quán)值向量與所述注意力加權(quán)視頻特征,以獲取與句子語義關(guān)聯(lián)緊密的關(guān)鍵視頻內(nèi)容;
根據(jù)所述視頻片段內(nèi)容生成句子注意力權(quán)值向量與注意力加權(quán)句子特征,以獲取句子中關(guān)于時序定位的關(guān)鍵線索。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810367989.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 聲音信號處理方法和裝置
- 對數(shù)字影像的噪聲抑制方法
- 特征加權(quán)的人臉識別算法
- 基于項頻度和權(quán)值的中文詞間矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘方法
- 基于改進(jìn)深度特征加權(quán)的樸素貝葉斯文本分類方法
- 基于項權(quán)值排序的英文特征詞加權(quán)關(guān)聯(lián)規(guī)則挖掘方法
- 模型生成方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種文字檢測方法及裝置
- 一種基于小樣本學(xué)習(xí)的圖像特征提取裝置
- 一種虛假新聞檢測方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)





