[發(fā)明專利]一種基于多模態(tài)信息融合理解的全媒體新聞智能編目方法有效
| 申請?zhí)枺?/td> | 202110198428.1 | 申請日: | 2021-02-22 |
| 公開(公告)號: | CN112818906B | 公開(公告)日: | 2023-07-11 |
| 發(fā)明(設(shè)計)人: | 張隨雨;俞定國;方莉萍;錢永江;王亞奇;馬小雨 | 申請(專利權(quán))人: | 浙江傳媒學(xué)院 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/74;G06V10/80;G06V10/77;G06V10/82;G06N3/0464;G06N3/049;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 陳升華 |
| 地址: | 310018 浙江省*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 信息 融合 理解 媒體 新聞 智能 編目 方法 | ||
1.一種基于多模態(tài)信息融合理解的全媒體新聞智能編目方法,其特征在于,包括以下步驟:
1)獲取原始新聞視頻,分割鏡頭片段并定位場景關(guān)鍵幀;
2)生成多個切片片段,具體包括:
A)通過已訓(xùn)練的用于新聞場景分類任務(wù)的殘差網(wǎng)絡(luò)來提取各個場景關(guān)鍵幀的視覺特征并推理獲得最高匹配度的面向新聞場景的場景分類標(biāo)簽;
B)基于步驟A)中獲得的各個片段的場景分類標(biāo)簽進行相鄰?fù)瑘鼍昂喜⑻幚恚?/p>
C):將步驟B)處理后仍保留的鏡頭邊界標(biāo)記作為新聞視頻的切片標(biāo)記,將相鄰鏡頭邊界標(biāo)記之間的幀序列作為一個切片片段,生成多個切片片段;
3)對步驟2)獲得的切片片段進行視覺特征提取并生成新聞描述文本;
4)對步驟2)獲得的切片片段進行語音識別獲得語音文本;
5)抽取步驟2)獲得的切片片段的圖像幀識別獲得字幕條文本;
6)識別步驟2)獲得的切片片段中的人臉特征并在新聞人物庫中進行匹配,得到人物信息文本;
7)將步驟3)得到的新聞描述文本、步驟4)得到的語音文本、步驟5)得到的字幕條文本、步驟6)得到的人物信息文本,輸入到多模態(tài)融合的生成模型處理,生成新聞關(guān)鍵詞及綜合編目描述,經(jīng)過整理和組裝后輸出,完成新聞智能編目;
多模態(tài)融合的生成模型處理,具體包括:
將新聞描述文本、語音文本、字幕條文本和人物信息文本輸入到已通過新聞?wù)Z料文本訓(xùn)練的嵌入層中,使文本轉(zhuǎn)化為語義特征向量,然后將這些向量通過統(tǒng)一映射層分別映射到統(tǒng)一的語義空間中,接著將統(tǒng)一語義空間中的向量傳入新聞?wù)Z義融合層進行融合理解以獲得消除了冗余信息的新聞融合特征,最后將新聞融合特征通過已訓(xùn)練的文本解碼層來生成綜合編目描述以及新聞關(guān)鍵詞的關(guān)鍵度;
所述的多模態(tài)融合的生成模型采用以下公式:
文本嵌入:Vx=x1v1+x2v2+…+xnvn;
式中:xi為被嵌入文本基于嵌入字典的One-hot編碼的第i位,n為嵌入字典的維度;vi為該文本對應(yīng)嵌入字典中的向量行;Vx為該文本嵌入后的向量;
統(tǒng)一映射:
式中:A,b和f(·)分別表示映射層權(quán)重矩陣、偏置向量和激活函數(shù);k為輸入向量x的維度;m為映射后的統(tǒng)一域的向量維度;
語義融合:
式中:xi為模態(tài)i在統(tǒng)一語義空間中的向量,wi為xi對應(yīng)的新聞?wù)Z義權(quán)重系數(shù);A,b和f(·)分別表示融合層的末層的權(quán)重矩陣、偏置向量和激活函數(shù);
文本解碼:該過程由多個長短期記憶網(wǎng)絡(luò)堆疊實現(xiàn):
L1=LSTM1(R)
Li+1=LSTMi+1(Li)
C(Li)=f(Li;W,b)
Outputtext=[OL1,OL2,OL3,…]
Outputcriticality=[C(L1),C(L2),C(L3),…]
式中:R為融合后的特征向量;LSTMi+1(·)為第i+1個長短期記憶網(wǎng)絡(luò)的函數(shù)表示,它的特征輸出為Li+1,文本輸出為OLi+1;f(·;W,b)為關(guān)鍵度運算的函數(shù)表示,其中W,b分別為承擔(dān)該運算的層的權(quán)重矩陣與偏置向量,基于Li運算獲得的關(guān)鍵度表示為C(Li);Outputtext為最終生成的完整文本描述,它是各個長短期記憶網(wǎng)絡(luò)的文本輸出所組成的隊列;Outputcriticality為文本描述中各個詞對應(yīng)的關(guān)鍵度所組成的隊列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江傳媒學(xué)院,未經(jīng)浙江傳媒學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110198428.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種清雪機機架
- 下一篇:一種拉絲潤滑粉加工生產(chǎn)用定量投料裝置
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





