[發(fā)明專利]基于差分多尺度多粒度特征融合的視頻文本檢索方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310050175.2 | 申請(qǐng)日: | 2023-02-01 |
| 公開(kāi)(公告)號(hào): | CN116226449A | 公開(kāi)(公告)日: | 2023-06-06 |
| 發(fā)明(設(shè)計(jì))人: | 王笛;李錦峰;王泉;萬(wàn)波;田玉敏;劉錦輝;王義峰;羅雪梅;安玲玲;趙輝 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G06F16/783 | 分類號(hào): | G06F16/783;G06F16/75;G06N3/08;G06N3/0464 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 王品華 |
| 地址: | 710071*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 差分多 尺度 粒度 特征 融合 視頻 文本 檢索 方法 | ||
1.一種基于差分多尺度多粒度特征融合的視頻文本檢索方法,其特征在于,包括如下:
(1)處理視頻數(shù)據(jù)集:
(1a)選擇待訓(xùn)練的視頻數(shù)據(jù)集及其對(duì)應(yīng)的文本標(biāo)注,并將視頻數(shù)據(jù)集通過(guò)視頻圖像生成工具按信息量提取關(guān)鍵幀,得到采樣后由圖片組成的視頻序列集:V={Vi},其中:Vi表示視頻數(shù)據(jù)集的第i個(gè)視頻序列,每個(gè)視頻序列由n幀圖片構(gòu)成,i=1,2,3,...,N,N為視頻數(shù)據(jù)集的大小;
(1b)將視頻對(duì)應(yīng)的文本標(biāo)注按空格切分,得到切分后的文本標(biāo)注;
(2)構(gòu)建提取特征網(wǎng)絡(luò),即使用視覺(jué)特征編碼器和文本特征編碼器作為特征提取網(wǎng)絡(luò),并使用現(xiàn)有的CLIP預(yù)訓(xùn)練模型中的參數(shù)對(duì)特征網(wǎng)絡(luò)進(jìn)行初始化;
(3)獲取文本標(biāo)注的全局特征Si和局部特征Ti,獲取視頻序列Vi的視覺(jué)特征序列Fi:
(3a)對(duì)一個(gè)視頻序列Vi,提取其RGB像素信息,即紅、綠、藍(lán)顏色特征,得到3組特征矩陣;(3b)構(gòu)建一層全連接層,其神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)與(3a)得到的每組特征矩陣維數(shù)相同,且參數(shù)可隨機(jī)初始化;
(3c)按照給定步長(zhǎng)對(duì)視頻序列Vi中的每一幀進(jìn)行切分,再將切分特征按組展平,并輸入到這一層全連接層中映射成一維向量;
(3d)將(1b)得到的切分后的文本標(biāo)注輸入到文本特征編碼器,輸出文本標(biāo)注的全局特征Si和局部特征將(3c)中得到的視頻的一維向量輸入視頻特征編碼器,輸出視頻序列Vi的視覺(jué)特征序列Fi={fi1,fi2,...,fik,....,fin},其中m表示當(dāng)前文本標(biāo)注中單詞的個(gè)數(shù),n為該序列中視頻幀的長(zhǎng)度,wip表示第i個(gè)文本標(biāo)注中第p個(gè)單詞的特征,fik表示視頻序列Vi的第k幀視覺(jué)特征;
(4)計(jì)算視頻序列Vi的局部特征和全局特征:
(4a)將視覺(jué)特征序列Fi按不同步長(zhǎng)進(jìn)行差分,得到視頻幀的差分特征:
dijk=fik-fij,k=1,2,...i-1,i+1,...,n
其中dijk表示視頻序列Vi的第j幀與第k幀的差分特征,fij表示視頻序列Vi的第j幀視覺(jué)特征,k表示差分步長(zhǎng);
(4b)計(jì)算一個(gè)視頻幀的所有差分特征,將其組成序列,并在頭部插入當(dāng)前幀的視覺(jué)特征序列,即對(duì)于視頻序列Vi中的第j幀fij,其差分特征序列為:同理計(jì)算其他幀的差分特征序列,得到視頻序列Vi的多尺度差分特征序列(4c)構(gòu)建時(shí)序特征提取模塊,將(4b)中得到的差分特征序列Δi作為該模塊的輸入,提取視頻序列Vi的時(shí)序信息,輸出視頻序列Vi的局部特征其中表示視頻序列Vi的第k個(gè)局部特征;
(4d)根據(jù)文本標(biāo)注的全局特征Si和對(duì)應(yīng)的視頻局部特征Lvi,計(jì)算視頻序列Vi的全局特征Ai;
(5)計(jì)算視頻和文本標(biāo)注的最終相似度:
(5a)計(jì)算文本標(biāo)注的全局特征Si與視頻序列的局部特征Lvi之間的交叉相似度SimS-f;
(5b)根據(jù)視頻序列Vi的全局特征Ai與文本標(biāo)注的局部特征Ti,計(jì)算視頻全局特征到文本標(biāo)注局部特征的交叉相似度SimV-w:
(5c)根據(jù)視頻Vi的全局部特征Ai和文本標(biāo)注的全局特征Si,計(jì)算視頻到文本標(biāo)注的全局特征相似度SimS-A;
(5d)根據(jù)(5a)、(5b)、(5c)的結(jié)果得到視頻和文本標(biāo)注的如下最終相似度:
Sim(S,V)=(SimS-A+SimV-w+SimS-f)/3
其中,S表示文本標(biāo)注,V表示視頻;
(6)對(duì)特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練:
(6a)根據(jù)視頻和文本標(biāo)注的最終相似度,構(gòu)建特征提取網(wǎng)絡(luò)的總損失函數(shù)L:
(6a1)根據(jù)(5d)得到的視頻和文本標(biāo)注的最終相似度Sim(S,V),計(jì)算視頻特征對(duì)文本標(biāo)注特征的先驗(yàn)概率和文本標(biāo)注特征對(duì)視頻特征的先驗(yàn)概率
(6a2)根據(jù)(6a1)得到的先驗(yàn)概率,利用交叉熵函數(shù),分別計(jì)算視頻到文本標(biāo)注的匹配損失和文本標(biāo)注到視頻的匹配損失
(6a3)根據(jù)(5d)得到的視頻和文本標(biāo)注的最終相似度最終相似度Sim(S,V),計(jì)算視頻到文本標(biāo)注的多項(xiàng)式損失和文本標(biāo)注到視頻的多項(xiàng)式損失
(6a4)根據(jù)(6a1)、(6a2)、(6a3)的結(jié)果,得到特征提取網(wǎng)絡(luò)的總損失函數(shù)L:
其中,其中λ1,λ2表示損失權(quán)重;
(6b)更新特征提取網(wǎng)絡(luò)參數(shù):
(6b1)設(shè)置特征提取網(wǎng)絡(luò)的學(xué)習(xí)率初始值為1e-7,時(shí)序特征提取模塊的學(xué)習(xí)率初始值為1e-4,神經(jīng)元丟棄率初始值為0.1;
(6b2)采用Adam優(yōu)化器訓(xùn)練模型,設(shè)置批次大小為64,根據(jù)當(dāng)前網(wǎng)絡(luò)參數(shù)值計(jì)算總損失L,并通過(guò)L的反向傳播迭代更新網(wǎng)絡(luò)的學(xué)習(xí)率、神經(jīng)元丟棄率和損失函數(shù)的參數(shù)值,重新計(jì)算得到新一輪L,以此循環(huán)往復(fù),直到總損失函數(shù)L收斂至最小,得到訓(xùn)練好的視頻文本匹配模型;
(7)將待檢索的視頻文本輸入訓(xùn)練好的視頻文本匹配模型中,并對(duì)模型輸出結(jié)果進(jìn)行排序,得到最終檢索結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310050175.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





