[發(fā)明專利]一種基于多階段聚合Transformer模型的視頻語句定位方法有效
| 申請?zhí)枺?/td> | 202011508292.1 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112488063B | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計)人: | 楊陽;張明星 | 申請(專利權(quán))人: | 貴州大學(xué) |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/75;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 55002*** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 階段 聚合 transformer 模型 視頻 語句 定位 方法 | ||
1.一種基于多階段聚合Transformer模型的視頻語句定位方法,其特征在于,包括以下步驟:
(1)、視頻切片特征、單詞特征提取
將視頻按照時間均勻地劃分為N個時刻點,在每一個時刻點,采集一個視頻切片,由連續(xù)的多幀圖像組成,對每個視頻切片進行特征提取,得到總共N個切片特征,N個切片特征按照時刻順序放置,形成視頻特征序列;
對語句的每個單詞進行詞轉(zhuǎn)向量,得到單詞特征,然后按照在語句中的順序放置,形成語句特征序列;
將視頻特征序列中的切片特征、語句特征序列的單詞特征映射到相同的維度,得到視頻特征序列語句特征序列其中,表示視頻第i個切片的切片特征,表示語句第j個單詞的單詞特征;
(2)、構(gòu)建視頻語句Transformer模型,并對視頻特征序列、語句特征序列進行計算
構(gòu)建一個D層視頻語句Transformer模型,其中,第d層,d=1,2,…,D的輸出為:
其中,V、L分別表示視頻和語句,Q、K、W為可學(xué)習(xí)參數(shù),其中,不同下標(biāo)表示不同參數(shù),Att(·)為注意力計算函數(shù);
視頻特征序列語句特征序列作為視頻語句Transformer模型的輸入進行計算,得到第D層輸出視頻特征序列語句特征序列
(3)、構(gòu)建多階段聚合模塊,計算三個階段的階段特征序列和預(yù)測分?jǐn)?shù)序列
計算開始階段、中間階段和結(jié)束階段的階段特征序列rsta、rmid、rend:
其中,開始階段特征序列rsta由N個切片的階段特征rista,i=1,2,...N組成,中間階段特征序列rmid由N個切片的階段特征rimid,i=1,2,...N組成,結(jié)束階段特征序列rend由N個切片的階段特征riend,i=1,2,...N組成,MLP1sta、MLP1mid、MLP1end分別為計算三個階段的階段特征序列的多層感知器(MLP,Multi-layer Perceptron);
計算開始階段、中間階段和結(jié)束階段的預(yù)測分?jǐn)?shù)序列psta、pmid、pend:
其中,開始階段預(yù)測分?jǐn)?shù)序列psta由N個切片的預(yù)測分?jǐn)?shù)組成,中間階段預(yù)測分?jǐn)?shù)序列pmid由N個切片的預(yù)測分?jǐn)?shù)組成,結(jié)束階段預(yù)測分?jǐn)?shù)序列pend由N個切片的預(yù)測分?jǐn)?shù)組成,分別為計算三個階段的預(yù)測分?jǐn)?shù)序列的多層感知器;
(4)、訓(xùn)練多階段聚合Transformer模型
視頻語句Transformer模型與多階段聚合模塊構(gòu)成多階段聚合Transformer模型;
構(gòu)建視頻語句訓(xùn)練數(shù)據(jù)集,其中每條數(shù)據(jù)包括一個視頻、一個語句,以及語句定位的視頻片段的視頻切片開始位置結(jié)束位置
從視頻語句訓(xùn)練數(shù)據(jù)集提出一條數(shù)據(jù),將語句中隨機屏蔽一個單詞,并用標(biāo)記“MASK”取代,然后將視頻、語句按照步驟(1)~(3)進行處理,再計算每個視頻切片開始階段、中間階段、結(jié)束階段的真實分?jǐn)?shù)
其中,
σsta、σmidσend為未歸一化的二維高斯分布的標(biāo)準(zhǔn)差,σsta、αmid、αend為正值的標(biāo)量,用于控制標(biāo)準(zhǔn)差的值;
4.1)、計算預(yù)測層上的加權(quán)交叉熵損失Lstage:
4.2)、計算第z個候選片段的視頻切片開始位置、結(jié)束位置的預(yù)測值以及匹配分?jǐn)?shù)預(yù)測值
其中,分別為第z個候選片段的視頻切片開始位置、中間位置、結(jié)束位置,分別為步驟(3)中得到的階段特征序列rsta、rmid、rend相應(yīng)位置的階段特征;
4.3)、計算邊界回歸損失Lregress:
其中,Z為候選片段的總數(shù);
4.4)、計算匹配分?jǐn)?shù)加權(quán)交叉熵損失Lmatch:
其中,yz為是第z個候選片段與語句定位的視頻片段即開始位置到結(jié)束位置的視頻的重合度;
4.5)、計算屏蔽單詞預(yù)測的交叉熵損失Lword
Lword=-log pmask
其中,pmask是根據(jù)語句特征序列預(yù)測為屏蔽的單詞的概率;
4.6)、計算訓(xùn)練多階段聚合Transformer模型的整個網(wǎng)絡(luò)的損失Ltotal
Ltotal=Lstage+Lregress+Lmatch+Lword
4.7)、更新整個網(wǎng)絡(luò)的參數(shù)
依次從視頻語句訓(xùn)練數(shù)據(jù)集取出一條數(shù)據(jù),依據(jù)損失Ltotal對整個網(wǎng)絡(luò)的參數(shù)進行更新,直到視頻語句訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)為空,這樣得到訓(xùn)練好的多階段聚合Transformer模型;
(5)、視頻語句定位
輸入視頻和不含掩蔽單詞的完整查詢語句,按照步驟(1)~(3)進行處理,再按照步驟4.2)計算出每個候選片段的匹配分?jǐn)?shù)預(yù)測值以及視頻切片開始位置、結(jié)束位置的預(yù)測值,并構(gòu)成新的候選片段,然后根據(jù)匹配分?jǐn)?shù)從高到低對新的候選片段進行排序,再使用非極大值抑制去除重疊超過70%的新的候選片段,并返回前1或前5個新的候選片段作為最終定位出的視頻片段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州大學(xué),未經(jīng)貴州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011508292.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習(xí)方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





