[發(fā)明專利]一種基于深度學(xué)習(xí)的新聞視頻標(biāo)題提取方法有效
| 申請?zhí)枺?/td> | 202010211414.4 | 申請日: | 2020-03-24 |
| 公開(公告)號: | CN111401368B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 王中元;陳何玲;裴盈嬌;黃寶金;涂衛(wèi)平 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V20/40;G06V10/74;G06V10/762;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06N3/0464 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 新聞 視頻 標(biāo)題 提取 方法 | ||
1.一種基于深度學(xué)習(xí)的新聞視頻標(biāo)題提取方法,其特征在于,包括以下步驟:
步驟1:利用幀間差分方法提取關(guān)鍵幀;
步驟1的具體實(shí)現(xiàn)包括以下步驟:
步驟1.1:利用OpenCV庫讀取視頻,依次計(jì)算幀間差分,得到平均幀間差分強(qiáng)度D(x,y);
式中,fk(x,y)和fk+1(x,y)分別為第k幀和k+1幀圖像,w和h為圖像的長和寬,x和y為圖像的坐標(biāo);
步驟1.2:基于步驟1.1得到的平均幀間差分強(qiáng)度,選擇平均幀間差分強(qiáng)度為局部最大值的幀作為視頻關(guān)鍵幀,并將其保存;
步驟2:使用EAST網(wǎng)絡(luò)得到關(guān)鍵幀文字區(qū)域;
步驟3:使用CNN和RNN先后提取關(guān)鍵幀文字區(qū)域的特征向量;
步驟4:根據(jù)得到的特征向量進(jìn)行關(guān)鍵幀的相似性比較,然后進(jìn)行聚類得到新聞視頻標(biāo)題字幕圖像。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的新聞視頻標(biāo)題提取方法,其特征在于,步驟2的具體實(shí)現(xiàn)包括以下步驟:
步驟2.1:將關(guān)鍵幀進(jìn)行圖像預(yù)處理,包括減均值和縮放處理;
步驟2.2:將預(yù)處理后的關(guān)鍵幀輸入四個階段的卷積層,得到四個不同規(guī)模的特征圖f1、f2、f3、f4,其相對于輸入圖片分別縮小了1/4、1/8、1/16、1/32;
步驟2.3:將f4上采樣后,得到特征圖h1,h1與f3串聯(lián),然后經(jīng)過1×1和3×3的卷積后,得到融合特征圖h2;將h2上采樣后,與f2串聯(lián),然后經(jīng)過1×1和3×3的卷積后,得到融合特征圖h3;將h3上采樣后,與f1串聯(lián),然后經(jīng)過1×1和3×3的卷積后,得到融合特征圖h4;最后經(jīng)過3×3的卷積后輸出最后的特征圖;
步驟2.4:將步驟2.3最后得到的特征圖與大小為1×1通道數(shù)為1的卷積核進(jìn)行卷積,得到一張得分圖Fs;Fs的大小為原圖的1/4,通道數(shù)為1,每個像素表示對應(yīng)于原圖中像素為文字的概率值;
步驟2.5:將最后得到的特征圖與大小為1×1通道數(shù)為4的卷積核進(jìn)行卷積,得到四個通道的Text?boxes,四個通道分別表示該像素點(diǎn)到文本框的四條邊的距離;將最后得到的特征圖與大小為1×1通道數(shù)為1的卷積核進(jìn)行卷積,得到一個通道的Text?rotationangle,表示該像素所在框的傾斜角度;這里Text?boxes和Text?rotation?angle合起來稱為Geometry?map,用Fg表示;
步驟2.6:將步驟2.5得到的文本框用非極大值抑制NMS進(jìn)行整合,輸出最后的關(guān)鍵幀文字區(qū)域。
3.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的新聞視頻標(biāo)題提取方法,其特征在于,步驟3的具體實(shí)現(xiàn)包括以下步驟:
步驟3.1:將步驟2所得到的關(guān)鍵幀文字區(qū)域輸入VGG結(jié)構(gòu)的網(wǎng)絡(luò)中,為了能將VGG提取的特征輸入致LSTM中,將VGG的第三、四層的池化層的核尺度由2×2變成了1×2;為了能加速網(wǎng)絡(luò)模型訓(xùn)練,在VGG的第五、六層后面加上BN層;因?yàn)檩斎雸D像不定寬,所以最后輸出N個1×512的特征;
步驟3.2:將CNN得到的特征按順序輸入RNN中,為了防止訓(xùn)練時梯度的消失,采用LSTM神經(jīng)單元作為RNN的單元;因?yàn)樾蛄械那跋蛐畔⒑秃笙蛐畔⒍加兄谛蛄械念A(yù)測,所以采用雙向RNN網(wǎng)絡(luò);最后得到關(guān)鍵幀文字區(qū)域的特征向量。
4.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的新聞視頻標(biāo)題提取方法,其特征在于,步驟4的具體實(shí)現(xiàn)包括以下步驟:
步驟4.1:使用歐式距離計(jì)算相鄰關(guān)鍵幀的文字相似度,得到一個相似度向量P,歐式距離的公式為:
其中,n表示圖像的像素點(diǎn)數(shù),xi和yi分別表示兩張圖片的第i個像素點(diǎn);
步驟4.2:將相似度向量的兩個相鄰元素相減,即P[i+1]-P[i],如果相鄰元素相減之和的絕對值在0.5的范圍內(nèi),且連續(xù)有三個值都在0.5范圍內(nèi),則認(rèn)為含有標(biāo)題,輸出其幀號;
步驟4.3:為了防止相同標(biāo)題字幕之間因?yàn)橛姓f話字幕將其判定為兩個標(biāo)題字幕,將步驟4.2產(chǎn)生的含有標(biāo)題的幀再次執(zhí)行步驟4.2,最后將相似度絕對值在0.5以內(nèi)的新聞視頻標(biāo)題字幕圖像輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010211414.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





