[發(fā)明專利]一種基于分布一致性的自注意力視頻摘要方法有效
| 申請?zhí)枺?/td> | 201910514548.0 | 申請日: | 2019-06-14 |
| 公開(公告)號(hào): | CN110287374B | 公開(公告)日: | 2023-01-03 |
| 發(fā)明(設(shè)計(jì))人: | 冀中;趙玉曉;李晟嘉;龐彥偉 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G06F16/738 | 分類號(hào): | G06F16/738;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分布 一致性 注意力 視頻 摘要 方法 | ||
1.一種基于分布一致性的自注意力視頻摘要方法,其特征在于,包括如下步驟:
1)將視頻以幀的形式輸入到卷積神經(jīng)網(wǎng)絡(luò)中提取視頻幀的特征向量;
2)將提取的視頻幀的特征向量以n個(gè)為一組,即X={x1,x2,x3L xn},輸入到雙向長短期記憶網(wǎng)絡(luò)之中進(jìn)行編碼訓(xùn)練,得到初始的編碼特征序列H={h1,h2,h3L hn};
3)將初始的編碼特征序列H中的n個(gè)編碼向量h1,h2,h3L hn輸入到自注意力機(jī)制中,得到由n個(gè)加權(quán)后的編碼特征向量構(gòu)成的自注意力機(jī)制加權(quán)后的編碼特征序列P:
其中,Softmax(·)為Softmax函數(shù);σ(·)為Sigmoid激活函數(shù);conv(·)為一維卷積函數(shù);為矩陣元素對應(yīng)相乘;P為自注意力機(jī)制加權(quán)后的編碼特征序列;
4)將自注意力機(jī)制加權(quán)后的編碼特征序列P中n個(gè)加權(quán)后的編碼特征向量依次輸入到長短期記憶網(wǎng)絡(luò)中進(jìn)行訓(xùn)練解碼,其中,每n個(gè)加權(quán)后的編碼特征向量生成一個(gè)相對應(yīng)的重要性分?jǐn)?shù)向量y';
5)將生成的重要性分?jǐn)?shù)向量y'輸入到用于衡量編解碼器網(wǎng)絡(luò)模型的MK損失函數(shù)中,在標(biāo)簽向量y的約束和監(jiān)督下,不斷地反饋并調(diào)整個(gè)網(wǎng)絡(luò)的參數(shù),并得到最終的幀級(jí)重要性分?jǐn)?shù),根據(jù)最終的幀級(jí)重要性分?jǐn)?shù),選取相應(yīng)視頻的關(guān)鍵鏡頭和關(guān)鍵幀集合并輸出視頻摘要的結(jié)果;包括:
(1)將生成的重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y輸入到如下Softmax函數(shù)中分別進(jìn)行歸一化處理,
sy'=softmax(y') (2)
sy=softmax(y) (3)
其中,Softmax(·)為Softmax函數(shù);
從而,得到重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y中每一個(gè)元素的重要程度,即重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y的分布概率;
(2)利用重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y的分布概率,通過如下MK損失函數(shù)對重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y進(jìn)行分布的度量:
其中,m是元素個(gè)數(shù);log(·)為log函數(shù);sy'和sy分別為經(jīng)Softmax函數(shù)處理的重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y的分布概率;Lmk為MK損失函數(shù);λ為調(diào)節(jié)距離度量和分布度量的比重的參數(shù);
(3)通過MK損失函數(shù)衡量重要性分?jǐn)?shù)向量y'和標(biāo)簽向量y之間的誤差,從而指導(dǎo)訓(xùn)練,最終得到幀級(jí)重要性分?jǐn)?shù),使用基于核的時(shí)域分割算法將輸入視頻分割成互不相交的鏡頭,結(jié)合得到的鏡頭和幀級(jí)重要性分?jǐn)?shù),將視頻摘要的生成看作0-1背包問題,采用動(dòng)態(tài)規(guī)劃求解,生成最終的自注意力視頻摘要。
2.根據(jù)權(quán)利要求1所述的一種基于分布一致性的自注意力視頻摘要方法,其特征在于,步驟1)是將輸入的視頻每15幀進(jìn)行初步的采樣,再將采樣的視頻幀輸入到卷積神經(jīng)網(wǎng)絡(luò)中得到視頻幀的特征向量。
3.根據(jù)權(quán)利要求1所述的一種基于分布一致性的自注意力視頻摘要方法,其特征在于,步驟3)所述的自注意力機(jī)制,是將n個(gè)編碼向量h1,h2,h3L hn依次經(jīng)過一維卷積計(jì)算、Sigmoid激活函數(shù)計(jì)算和Softmax函數(shù)計(jì)算分別獲取權(quán)重,并先后通過元素對應(yīng)相乘和相加的計(jì)算過程進(jìn)行權(quán)重的分配,從而得到n個(gè)加權(quán)后的編碼特征向量,構(gòu)成自注意力機(jī)制加權(quán)后的編碼特征序列P。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910514548.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測方法
- 一種評(píng)測注意力狀態(tài)的方法及裝置
- 注意力測評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





