[發(fā)明專利]視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)有效

申請?zhí)枺?/td>	202111436728.5	申請日：	2021-11-29
公開（公告）號：	CN114143479B	公開（公告）日：	2023-07-25
發(fā)明（設(shè)計(jì)）人：	劉釗	申請（專利權(quán)）人：	中國平安人壽保險(xiǎn)股份有限公司
主分類號：	H04N5/265	分類號：	H04N5/265
代理公司：	深圳市力道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507	代理人：	張傳義
地址：	518000 廣東省深圳市福田區(qū)福田街道益田路5033號平安***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	視頻摘要生成方法裝置設(shè)備以及存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實(shí)施例涉及人工智能領(lǐng)域，公開了一種視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)。其中，該方法通過獲取目標(biāo)文案解說視頻，并將目標(biāo)文案解說視頻劃分為多個(gè)解說視頻片段；從解說視頻片段種選出關(guān)鍵視頻片段；提取關(guān)鍵視頻片段的文案解說音頻及文案解說影像；獲取關(guān)鍵視頻片段中目標(biāo)對象的第一語音數(shù)據(jù)；獲取目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù)；根據(jù)第一語音數(shù)據(jù)和第二語音數(shù)據(jù)確定目標(biāo)對象的目標(biāo)語音數(shù)據(jù)；根據(jù)目標(biāo)語音數(shù)據(jù)獲取目標(biāo)文本信息；根據(jù)每個(gè)關(guān)鍵視頻片段對應(yīng)的文案解說影像、目標(biāo)語音數(shù)據(jù)及目標(biāo)文本信息生成對應(yīng)關(guān)鍵視頻片段的視頻摘要片段；將視頻摘要片段進(jìn)行拼接，生成目標(biāo)文案解說視頻對應(yīng)的視頻摘要。

技術(shù)領(lǐng)域

本申請涉及語音識別技術(shù)領(lǐng)域，尤其涉及一種視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)。

背景技術(shù)

隨著互聯(lián)網(wǎng)技術(shù)和多媒體技術(shù)的發(fā)展，數(shù)字視頻大量涌入，比如新聞、廣告、電視、電影、網(wǎng)絡(luò)直播等等。無論是學(xué)習(xí)工作還是社交娛樂，用戶都被海量視頻包圍著，想要在大量視頻中快速查詢到感興趣的視頻是不易的，因此視頻摘要應(yīng)運(yùn)而生，顧名思義，視頻摘要是視頻內(nèi)容的簡要表示，目的是為了方便用戶快速了解視頻內(nèi)容，并決定是否詳細(xì)觀看，以及用于視頻數(shù)據(jù)庫的索引和查詢等。

其中，文案解說類視頻，通常是需要解說人員對應(yīng)PPT、word、黑板等記載有文案信息的介質(zhì)進(jìn)行講解，并為講解適配對應(yīng)的解說字幕，以使觀看人員可以多角度獲取解說內(nèi)容，現(xiàn)有技術(shù)中，解說類視頻為了快速地生成視頻摘要，通常情況下，會隨機(jī)地、或者等幀間間隔地從視頻中摘取多個(gè)視頻幀，并將摘取的多個(gè)視頻幀簡單結(jié)合，從而生成視頻摘要。

然而，通過此種方式生成的視頻摘要，無法識別素材是否存在質(zhì)量問題，所生成的視頻摘要質(zhì)量難以保證。

發(fā)明內(nèi)容

本申請實(shí)施例的主要目的在于提供一種視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)，旨在提高視頻摘要的生成質(zhì)量，提升用戶體驗(yàn)。

第一方面，本申請實(shí)施例提供一種視頻摘要的生成方法，包括：

獲取目標(biāo)文案解說視頻，并將所述目標(biāo)文案解說視頻劃分為多個(gè)解說視頻片段；

根據(jù)每個(gè)所述解說視頻片段與目標(biāo)文案講解的相關(guān)程度從多個(gè)所述解說視頻片段選出關(guān)鍵視頻片段，其中，每個(gè)所述關(guān)鍵視頻片段均包括講解所述目標(biāo)文案的目標(biāo)對象；

提取所述關(guān)鍵視頻片段對應(yīng)的文案解說音頻及文案解說影像，并根據(jù)所述文案解說音頻獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的第一語音數(shù)據(jù)，以及根據(jù)所述文案解說影像獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的多張口型變化圖像，并根據(jù)多張所述口型變化圖像獲取所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù)；

根據(jù)所述第一語音數(shù)據(jù)和所述第二語音數(shù)據(jù)確定所述目標(biāo)對象的目標(biāo)語音數(shù)據(jù)，并將所述目標(biāo)語音數(shù)據(jù)輸入至預(yù)設(shè)的語音識別模型，以獲取目標(biāo)文本信息；

根據(jù)每個(gè)所述關(guān)鍵視頻片段對應(yīng)的所述文案解說影像、所述目標(biāo)語音數(shù)據(jù)及所述目標(biāo)文本信息生成對應(yīng)所述關(guān)鍵視頻片段的視頻摘要片段，并將所述視頻摘要片段進(jìn)行拼接，生成所述目標(biāo)文案解說視頻對應(yīng)的視頻摘要。

第二方面，本申請實(shí)施例還提供一種視頻摘要的生成裝置，包括：

片段劃分模塊，用于獲取目標(biāo)文案解說視頻，并將所述目標(biāo)文案解說視頻劃分為多個(gè)解說視頻片段；

片段篩選模塊，用于根據(jù)每個(gè)所述解說視頻片段與目標(biāo)文案講解的相關(guān)程度從多個(gè)所述解說視頻片段選出關(guān)鍵視頻片段，其中，每個(gè)所述關(guān)鍵視頻片段均包括講解所述目標(biāo)文案的目標(biāo)對象；

語音提起模塊，用于提取所述關(guān)鍵視頻片段對應(yīng)的文案解說音頻及文案解說影像，并根據(jù)所述文案解說音頻獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的第一語音數(shù)據(jù)，以及根據(jù)所述文案解說影像獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的多張口型變化圖像，并根據(jù)多張所述口型變化圖像獲取所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險(xiǎn)股份有限公司，未經(jīng)中國平安人壽保險(xiǎn)股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111436728.5/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種強(qiáng)迫空空冷滑動軸承冷卻結(jié)構(gòu)
下一篇：數(shù)據(jù)對賬方法、裝置、設(shè)備及存儲介質(zhì)

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N5-00 電視系統(tǒng)的零部件
H04N5-04 .同步
H04N5-14 .視頻圖像信號電路
H04N5-222 .電視演播室線路；電視演播室裝置；電視演播室設(shè)備
H04N5-30 .轉(zhuǎn)變光或模擬信息為電信號
H04N5-38 .發(fā)射機(jī)電路

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】