[發(fā)明專利]視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202111436728.5 | 申請日: | 2021-11-29 |
| 公開(公告)號: | CN114143479B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計(jì))人: | 劉釗 | 申請(專利權(quán))人: | 中國平安人壽保險(xiǎn)股份有限公司 |
| 主分類號: | H04N5/265 | 分類號: | H04N5/265 |
| 代理公司: | 深圳市力道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518000 廣東省深圳市福田區(qū)福田街道益田路5033號平安*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 摘要 生成 方法 裝置 設(shè)備 以及 存儲 介質(zhì) | ||
本申請實(shí)施例涉及人工智能領(lǐng)域,公開了一種視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)。其中,該方法通過獲取目標(biāo)文案解說視頻,并將目標(biāo)文案解說視頻劃分為多個(gè)解說視頻片段;從解說視頻片段種選出關(guān)鍵視頻片段;提取關(guān)鍵視頻片段的文案解說音頻及文案解說影像;獲取關(guān)鍵視頻片段中目標(biāo)對象的第一語音數(shù)據(jù);獲取目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù);根據(jù)第一語音數(shù)據(jù)和第二語音數(shù)據(jù)確定目標(biāo)對象的目標(biāo)語音數(shù)據(jù);根據(jù)目標(biāo)語音數(shù)據(jù)獲取目標(biāo)文本信息;根據(jù)每個(gè)關(guān)鍵視頻片段對應(yīng)的文案解說影像、目標(biāo)語音數(shù)據(jù)及目標(biāo)文本信息生成對應(yīng)關(guān)鍵視頻片段的視頻摘要片段;將視頻摘要片段進(jìn)行拼接,生成目標(biāo)文案解說視頻對應(yīng)的視頻摘要。
技術(shù)領(lǐng)域
本申請涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)和多媒體技術(shù)的發(fā)展,數(shù)字視頻大量涌入,比如新聞、廣告、電視、電影、網(wǎng)絡(luò)直播等等。無論是學(xué)習(xí)工作還是社交娛樂,用戶都被海量視頻包圍著,想要在大量視頻中快速查詢到感興趣的視頻是不易的,因此視頻摘要應(yīng)運(yùn)而生,顧名思義,視頻摘要是視頻內(nèi)容的簡要表示,目的是為了方便用戶快速了解視頻內(nèi)容,并決定是否詳細(xì)觀看,以及用于視頻數(shù)據(jù)庫的索引和查詢等。
其中,文案解說類視頻,通常是需要解說人員對應(yīng)PPT、word、黑板等記載有文案信息的介質(zhì)進(jìn)行講解,并為講解適配對應(yīng)的解說字幕,以使觀看人員可以多角度獲取解說內(nèi)容,現(xiàn)有技術(shù)中,解說類視頻為了快速地生成視頻摘要,通常情況下,會隨機(jī)地、或者等幀間間隔地從視頻中摘取多個(gè)視頻幀,并將摘取的多個(gè)視頻幀簡單結(jié)合,從而生成視頻摘要。
然而,通過此種方式生成的視頻摘要,無法識別素材是否存在質(zhì)量問題,所生成的視頻摘要質(zhì)量難以保證。
發(fā)明內(nèi)容
本申請實(shí)施例的主要目的在于提供一種視頻摘要的生成方法、裝置、設(shè)備以及存儲介質(zhì),旨在提高視頻摘要的生成質(zhì)量,提升用戶體驗(yàn)。
第一方面,本申請實(shí)施例提供一種視頻摘要的生成方法,包括:
獲取目標(biāo)文案解說視頻,并將所述目標(biāo)文案解說視頻劃分為多個(gè)解說視頻片段;
根據(jù)每個(gè)所述解說視頻片段與目標(biāo)文案講解的相關(guān)程度從多個(gè)所述解說視頻片段選出關(guān)鍵視頻片段,其中,每個(gè)所述關(guān)鍵視頻片段均包括講解所述目標(biāo)文案的目標(biāo)對象;
提取所述關(guān)鍵視頻片段對應(yīng)的文案解說音頻及文案解說影像,并根據(jù)所述文案解說音頻獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的第一語音數(shù)據(jù),以及根據(jù)所述文案解說影像獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的多張口型變化圖像,并根據(jù)多張所述口型變化圖像獲取所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù);
根據(jù)所述第一語音數(shù)據(jù)和所述第二語音數(shù)據(jù)確定所述目標(biāo)對象的目標(biāo)語音數(shù)據(jù),并將所述目標(biāo)語音數(shù)據(jù)輸入至預(yù)設(shè)的語音識別模型,以獲取目標(biāo)文本信息;
根據(jù)每個(gè)所述關(guān)鍵視頻片段對應(yīng)的所述文案解說影像、所述目標(biāo)語音數(shù)據(jù)及所述目標(biāo)文本信息生成對應(yīng)所述關(guān)鍵視頻片段的視頻摘要片段,并將所述視頻摘要片段進(jìn)行拼接,生成所述目標(biāo)文案解說視頻對應(yīng)的視頻摘要。
第二方面,本申請實(shí)施例還提供一種視頻摘要的生成裝置,包括:
片段劃分模塊,用于獲取目標(biāo)文案解說視頻,并將所述目標(biāo)文案解說視頻劃分為多個(gè)解說視頻片段;
片段篩選模塊,用于根據(jù)每個(gè)所述解說視頻片段與目標(biāo)文案講解的相關(guān)程度從多個(gè)所述解說視頻片段選出關(guān)鍵視頻片段,其中,每個(gè)所述關(guān)鍵視頻片段均包括講解所述目標(biāo)文案的目標(biāo)對象;
語音提起模塊,用于提取所述關(guān)鍵視頻片段對應(yīng)的文案解說音頻及文案解說影像,并根據(jù)所述文案解說音頻獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的第一語音數(shù)據(jù),以及根據(jù)所述文案解說影像獲取所述關(guān)鍵視頻片段中所述目標(biāo)對象的多張口型變化圖像,并根據(jù)多張所述口型變化圖像獲取所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險(xiǎn)股份有限公司,未經(jīng)中國平安人壽保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111436728.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





