[發(fā)明專利]基于跨模態(tài)的視頻時刻定位方法、系統(tǒng)及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201810600245.6 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN108932304B | 公開(公告)日: | 2019-06-18 |
| 發(fā)明(設(shè)計)人: | 劉萌;聶禮強;王翔;宋雪萌;甘甜;陳寶權(quán) | 申請(專利權(quán))人: | 山東大學(xué) |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783;G06F16/78;G06F17/27;G06K9/00;G06K9/62 |
| 代理公司: | 濟南圣達知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 *** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 存儲介質(zhì) 定位問題 模態(tài) 文本信息提取 多層感知 模型融合 時序模型 視覺特征 特征提取 文本查詢 文本描述 訓(xùn)練模型 訓(xùn)練數(shù)據(jù) 多模態(tài) 準(zhǔn)確率 構(gòu)建 匹配 文本 融合 預(yù)測 語言 應(yīng)用 | ||
1.基于跨模態(tài)的視頻時刻定位方法,其特征是,包括:訓(xùn)練階段和測試階段;
訓(xùn)練階段,包括:利用給定的訓(xùn)練視頻制備訓(xùn)練數(shù)據(jù)集,擴展訓(xùn)練數(shù)據(jù)集,對擴展訓(xùn)練數(shù)據(jù)集里面的每一個當(dāng)前訓(xùn)練視頻片段劃分視頻上下文片段;對當(dāng)前訓(xùn)練視頻片段和視頻上下文片段分別進行視頻特征提取;構(gòu)建語言時序注意力模型,將提取的視頻特征和每個當(dāng)前訓(xùn)練視頻片段對應(yīng)的訓(xùn)練文本描述輸入到語言時序注意力模型中,輸出訓(xùn)練文本描述對應(yīng)的文本特征;對視頻特征和文本特征進行特征融合;將特征融合后的特征輸入到多層感知機中,對多層感知機進行訓(xùn)練得到訓(xùn)練好的多層感知機;
測試階段,包括:將待查詢的視頻按照設(shè)定時間間隔均勻劃分為若干個測試視頻片段,對每一個測試視頻片段劃分視頻上下文片段;對測試視頻片段和測試視頻片段的上下文片段分別進行視頻特征提取;將提取的視頻特征和查詢文本描述輸入到訓(xùn)練階段已經(jīng)構(gòu)建的語言時序注意力模型中,輸出查詢文本描述對應(yīng)的查詢文本特征;對測試視頻特征和查詢文本特征進行特征融合,將特征融合后的特征輸入到訓(xùn)練階段已經(jīng)訓(xùn)練好的多層感知機中,多層感知機輸出推薦的視頻片段和被推薦視頻片段的預(yù)測起止時間;
所述語言時序注意力模型構(gòu)造步驟:
步驟(101):對于訓(xùn)練文本描述,假設(shè)訓(xùn)練文本描述是由T個詞組成;首先,使用文本處理工具Glove將每一個詞wt映射為詞向量et;進而得到詞向量序列:
然后,利用雙向LSTM網(wǎng)絡(luò)處理詞向量序列:
每一個時間節(jié)點t,雙向LSTM輸出兩個隱含向量和
將和拼接在一起,得到向量表示ht;
向量表示ht,包括:詞wt的信息以及詞wt的上下文的詞語信息;
用公式表達如下:
et=glove(wt)
步驟(102):得到每一個詞語的向量表示后,對于
訓(xùn)練視頻片段ci以及訓(xùn)練視頻上下文片段cj,j∈{i-n,…,i-1,i+1,…,i+n},n是上下文信息鄰域窗口的大小;
計算出每一個詞的權(quán)值,即與訓(xùn)練視頻片段定位的相關(guān)性程度,詞的權(quán)值越大,表明當(dāng)前詞語與訓(xùn)練視頻片段的相關(guān)性越高;
其中,函數(shù)f是ReLU激活函數(shù);Wq與Wc為映射矩陣,將詞向量表示ht與訓(xùn)練視頻片段的時空特征以及訓(xùn)練視頻上下文片段的時空特征映射到共同 空間中;b為偏置向量;at為學(xué)習(xí)到的每一個詞的權(quán)值;βT為參數(shù),通過訓(xùn)練學(xué)習(xí)得到;
步驟(103):在得到每一個詞的權(quán)值at后,依據(jù)權(quán)值對給定的文本描述中的詞進行線性加權(quán)相加得到文本描述的特征表示q:
2.如權(quán)利要求1所述的基于跨模態(tài)的視頻時刻定位方法,其特征是,所述制備訓(xùn)練數(shù)據(jù)集的具體步驟為:從給定的訓(xùn)練視頻中截取若干個訓(xùn)練視頻片段,每一個訓(xùn)練視頻片段都有對應(yīng)該訓(xùn)練視頻片段的訓(xùn)練文本描述,每一個訓(xùn)練視頻片段都有對應(yīng)的起始時間和結(jié)束時間;當(dāng)前訓(xùn)練視頻片段的時間范圍等于當(dāng)前訓(xùn)練視頻片段的結(jié)束時間減去當(dāng)前訓(xùn)練視頻片段的起始時間。
3.如權(quán)利要求1所述的基于跨模態(tài)的視頻時刻定位方法,其特征是,所述擴展訓(xùn)練數(shù)據(jù)集的具體步驟為:將與當(dāng)前訓(xùn)練視頻片段時間范圍覆蓋率大于等于50%的視頻片段也截取出來作為訓(xùn)練視頻片段,默認(rèn)擴展出來的訓(xùn)練視頻片段的文本描述與當(dāng)前訓(xùn)練視頻片段的文本描述是一致的。
4.如權(quán)利要求1所述的基于跨模態(tài)的視頻時刻定位方法,其特征是,所述劃分視頻上下文片段的具體步驟為:與當(dāng)前訓(xùn)練視頻片段若干個鄰近的視頻片段視為當(dāng)前訓(xùn)練視頻片段的訓(xùn)練視頻上下文片段;給定訓(xùn)練視頻上下文片段的時間范圍,從當(dāng)前訓(xùn)練視頻片段起始時間向前按照給定訓(xùn)練視頻上下文片段的時間范圍截取,得到上文片段,從當(dāng)前訓(xùn)練視頻片段的結(jié)束時間向后按照給定訓(xùn)練視頻上下文片段的時間范圍截取,得到下文片段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810600245.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于接合與分離存儲介質(zhì)的裝置
- 存儲介質(zhì)陣列控制器、控制方法、設(shè)備、和存儲介質(zhì)驅(qū)動器
- 存儲介質(zhì)處理方法、系統(tǒng)及數(shù)據(jù)讀寫操作方法、系統(tǒng)
- 存儲裝置、存儲介質(zhì)以及存儲介質(zhì)的制造方法
- 數(shù)據(jù)存儲
- 存儲介質(zhì)之間的數(shù)據(jù)遷移
- 一種基于存儲系統(tǒng)的控制方法及裝置
- 自助設(shè)備及自助設(shè)備的介質(zhì)存儲裝置
- 融合存儲系統(tǒng)中的數(shù)據(jù)遷移方法和裝置
- 一種數(shù)據(jù)存儲方法、裝置及電子設(shè)備
- 一種基于特定模態(tài)語義空間建模的跨模態(tài)相似性學(xué)習(xí)方法
- 一種發(fā)動機多模態(tài)控制系統(tǒng)
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 雙向飛翼飛行器氣動外形和設(shè)計方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲介質(zhì)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于壓電雙模態(tài)諧振器的雙通帶濾波器
- 增程器控制方法、裝置、介質(zhì)、整車控制器及車輛
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





