[發(fā)明專利]基于H5的文案解說視頻生成方法、裝置、設(shè)備以及介質(zhì)有效
| 申請?zhí)枺?/td> | 202210044164.9 | 申請日: | 2022-01-14 |
| 公開(公告)號: | CN114363531B | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計)人: | 胡向杰 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | H04N5/265 | 分類號: | H04N5/265;H04N5/262;H04N5/278;H04L67/567 |
| 代理公司: | 深圳市力道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518000 廣東省深圳市福田區(qū)福田街道益田路5033號平安*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 h5 文案 解說 視頻 生成 方法 裝置 設(shè)備 以及 介質(zhì) | ||
1.一種基于H5的文案解說視頻生成方法,其特征在于,包括:
獲取目標(biāo)文案解說視頻的設(shè)計要求,并根據(jù)所述設(shè)計要求確定所述目標(biāo)文案解說視頻的視頻主題;
根據(jù)所述視頻主題獲取制作所述目標(biāo)文案解說視頻所需的文本素材、圖像素材、音頻素材及視頻素材,并根據(jù)所述文本素材、所述圖像素材及所述音頻素材生成第一視頻片段;
從所述視頻素材中篩選具有解說預(yù)設(shè)文案的目標(biāo)對象的關(guān)鍵素材片段,并提取所述關(guān)鍵素材片段對應(yīng)的文案解說音頻及文案解說影像;
根據(jù)所述文案解說音頻獲取所述關(guān)鍵素材片段中所述目標(biāo)對象的第一語音數(shù)據(jù),并根據(jù)所述文案解說影像獲取所述關(guān)鍵素材片段中所述目標(biāo)對象的多張口型變化圖像,以根據(jù)多張所述口型變化圖像獲取所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù);
根據(jù)所述第一語音數(shù)據(jù)和所述第二語音數(shù)據(jù)確定所述目標(biāo)對象的目標(biāo)語音數(shù)據(jù),并將所述目標(biāo)語音數(shù)據(jù)輸入至預(yù)設(shè)的語音識別模型,以獲取目標(biāo)文本信息;
根據(jù)所述關(guān)鍵素材片段對應(yīng)的所述文案解說影像、所述目標(biāo)語音數(shù)據(jù)及所述目標(biāo)文本信息生成第二視頻片段;
根據(jù)所述第一視頻片段及所述第二視頻片段生成所述目標(biāo)文案解說視頻,并將所述目標(biāo)文案解說視頻插入預(yù)設(shè)的H5網(wǎng)頁,其中,所述目標(biāo)文案解說視頻顯示在所述H5網(wǎng)頁可視窗口上。
2.如權(quán)利要求1所述的方法,其特征在于,所述從所述視頻素材中篩選具有解說預(yù)設(shè)文案的目標(biāo)對象的關(guān)鍵素材片段,包括:
將所述視頻素材分割成多個素材片段,并從多個所述素材片段中篩選具有解說預(yù)設(shè)文案的目標(biāo)對象的目標(biāo)素材片段;
獲取每個所述目標(biāo)素材片段中所出現(xiàn)的預(yù)設(shè)文案的文案信息,并對所述文案信息進行關(guān)鍵詞提取,以獲取文案關(guān)鍵詞;
根據(jù)每個所述目標(biāo)素材片段中對應(yīng)的所述文案關(guān)鍵詞的出現(xiàn)頻率、及所述文案關(guān)鍵詞的數(shù)量獲取每個所述目標(biāo)素材片段的關(guān)鍵程度;
選擇所述關(guān)鍵程度最高的預(yù)設(shè)數(shù)量所述目標(biāo)素材片段作為所述關(guān)鍵素材片段。
3.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述文案解說音頻獲取所述關(guān)鍵素材片段中所述目標(biāo)對象的第一語音數(shù)據(jù),包括:
將文案解說音頻輸入到語音提取模型的特征提取網(wǎng)絡(luò)進行特征提取,獲取所述文案解說音頻對應(yīng)的特征向量,所述文案解說音頻包括所述目標(biāo)對象的第一語音數(shù)據(jù)和環(huán)境的噪聲數(shù)據(jù);
將預(yù)設(shè)向量和所述特征向量輸入到所述語音提取模型的語音提取網(wǎng)絡(luò),以從所述文案解說音頻中提取出所述目標(biāo)對象的第一語音數(shù)據(jù),其中,所述語音提取模型通過用戶語音訓(xùn)練獲得,所述預(yù)設(shè)向量根據(jù)所述噪聲數(shù)據(jù)獲得,所述語音提取網(wǎng)絡(luò)以所述預(yù)設(shè)向量為參考,調(diào)整所述第一語音數(shù)據(jù)和所述噪聲數(shù)據(jù)在所述文案解說音頻中所占的比例,從而獲取所述目標(biāo)對象的第一語音數(shù)據(jù)。
4.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述文案解說影像獲取所述關(guān)鍵素材片段中所述目標(biāo)對象的多張口型變化圖像,以根據(jù)多張所述口型變化圖像獲取所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù),包括:
提取所述文案解說影像的每一幀視頻圖像中所述目標(biāo)對象的口型圖像,并根據(jù)所述文案解說影像的時間軸賦予所述口型圖像對應(yīng)的時間戳;
根據(jù)所述時間戳將所述口型圖像輸入至預(yù)設(shè)的唇語識別模型,以獲取所述文案解說影像中所述目標(biāo)對象對應(yīng)的第二語音數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一語音數(shù)據(jù)和所述第二語音數(shù)據(jù)確定所述目標(biāo)對象的目標(biāo)語音數(shù)據(jù),包括:
將所述第一語音數(shù)據(jù)和所述第二語音數(shù)據(jù)對比,判斷所述第一語音數(shù)據(jù)是否存在語音缺失;
當(dāng)所述第一語音數(shù)據(jù)存在語音缺失時,根據(jù)所述第二語音數(shù)據(jù)對所述第一語音數(shù)據(jù)進行語音補償,得到所述目標(biāo)語音數(shù)據(jù)。
6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述第二語音數(shù)據(jù)對所述第一語音數(shù)據(jù)進行語音補償,得到所述目標(biāo)語音數(shù)據(jù),包括:
標(biāo)記所述第一語音數(shù)據(jù)的缺失部分,并獲取與所述缺失部分對應(yīng)的第一時間段;
從所述第二語音數(shù)據(jù)中獲取與所述第一時間段對應(yīng)的第二語音數(shù)據(jù)段,并利用所述第二語音數(shù)據(jù)段補償所述缺失部分,得到所述目標(biāo)語音數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210044164.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





