[發(fā)明專利]背景音頻構(gòu)建方法及裝置有效

申請?zhí)枺?/td>	202011437857.1	申請日：	2020-12-10
公開（公告）號：	CN112584062B	公開（公告）日：	2023-08-08
發(fā)明（設(shè)計）人：	張奕	申請（專利權(quán)）人：	上海幻電信息科技有限公司
主分類號：	H04N5/265	分類號：	H04N5/265;G06T7/10
代理公司：	北京智信禾專利代理有限公司 11637	代理人：	劉曉楠
地址：	201203 上海市浦東新區(qū)中國（上海）***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	背景音頻構(gòu)建方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種背景音頻構(gòu)建方法，其特征在于，包括：

對待處理視頻數(shù)據(jù)進行語義分割生成對應(yīng)的語義分割圖，并基于所述語義分割圖提取所述待處理視頻數(shù)據(jù)的語義分割特征，其中，所述語義分割特征包括類別標(biāo)簽分布統(tǒng)計、邊緣像素占比統(tǒng)計以及前后關(guān)鍵幀語義分割圖差分統(tǒng)計，所述類別標(biāo)簽分布統(tǒng)計為各類別標(biāo)簽對應(yīng)像素數(shù)量的比率，所述邊緣像素占比統(tǒng)計為統(tǒng)計像素各類別標(biāo)簽邊緣像素占該類別標(biāo)簽總像素數(shù)的比率，所述關(guān)鍵幀語義分割圖差分統(tǒng)計為對相鄰視頻分段關(guān)鍵幀對應(yīng)語義分割圖之間相同位置像素類別標(biāo)簽差異進行統(tǒng)計；

提取預(yù)先建立的音頻集合中各音頻文件的音頻特征，其中，所述音頻特征包括頻譜信號和音頻類型；

將所述語義分割特征和所述音頻特征縮放至相同維度，對所述音頻特征與所述語義分割特征進行對齊處理，根據(jù)對齊結(jié)果在所述音頻集合中篩選目標(biāo)音頻文件，并基于所述目標(biāo)音頻文件構(gòu)建所述待處理視頻數(shù)據(jù)的背景音頻；

其中，對所述音頻特征與所述語義分割特征進行對齊處理，包括：

將所述音頻特征及所述語義分割特征輸入音頻對齊模型進行對齊處理。

2.根據(jù)權(quán)利要求1所述的背景音頻構(gòu)建方法，其特征在于，所述對待處理視頻數(shù)據(jù)進行語義分割生成對應(yīng)的語義分割圖，包括：

按照預(yù)設(shè)時長閾值對所述待處理視頻數(shù)據(jù)進行視頻片段切分；

提取切分結(jié)果中每個第一視頻片段的第一關(guān)鍵幀；

將所述第一關(guān)鍵幀輸入語義分割模型進行處理，生成所述每個第一視頻片段的第一語義分割圖。

3.根據(jù)權(quán)利要求2所述的背景音頻構(gòu)建方法，其特征在于，所述基于所述語義分割圖提取所述待處理視頻數(shù)據(jù)的語義分割特征，包括：

基于所述第一語義分割圖提取所述每個第一視頻片段的第一語義分割特征；

計算切分結(jié)果中各第一視頻片段的第一語義分割特征的均值，并將所述均值作為所述待處理視頻數(shù)據(jù)的語義分割特征。

4.根據(jù)權(quán)利要求2所述的背景音頻構(gòu)建方法，其特征在于，所述語義分割模型通過以下方式訓(xùn)練：

按照所述預(yù)設(shè)時長閾值對樣本視頻文件進行視頻片段切分；

提取切分結(jié)果中每個第二視頻片段的第二關(guān)鍵幀；

將所述第二關(guān)鍵幀作為樣本數(shù)據(jù)，并將所述第二關(guān)鍵幀的語義分割圖中各像素點的類別標(biāo)識作為標(biāo)簽，輸入待訓(xùn)練的語義分割模型進行訓(xùn)練，獲得所述語義分割模型，所述語義分割模型使得所述第二關(guān)鍵幀與所述各像素點的類別標(biāo)識相關(guān)聯(lián)。

5.根據(jù)權(quán)利要求1所述的背景音頻構(gòu)建方法，其特征在于，所述提取預(yù)先建立的音頻集合中各音頻文件的音頻特征，包括：

按照預(yù)設(shè)時長閾值對所述音頻集合中的各音頻文件進行切分；

對切分結(jié)果中的每個第一音頻片段進行傅里葉變換，生成所述每個第一音頻片段的第一頻譜信號；

將所述第一頻譜信號輸入音頻特征提取模型進行處理，生成所述音頻集合中各音頻文件的音頻特征。

6.根據(jù)權(quán)利要求5所述的背景音頻構(gòu)建方法，其特征在于，所述音頻特征提取模型通過以下方式訓(xùn)練：

按照預(yù)設(shè)時長閾值對樣本音頻文件進行切分；

對切分結(jié)果中的每個第二音頻片段進行傅里葉變換，生成所述每個第二音頻片段的第二頻譜信號；

將所述第二頻譜信號作為樣本數(shù)據(jù)，并將所述樣本音頻文件的音頻類型作為標(biāo)簽，輸入待訓(xùn)練的音頻特征提取模型進行訓(xùn)練，獲得所述音頻特征提取模型，所述音頻特征提取模型使得所述第二頻譜信號與所述音頻類型相關(guān)聯(lián)。

7.根據(jù)權(quán)利要求1或3所述的背景音頻構(gòu)建方法，其特征在于，所述將所述音頻特征與所述語義分割特征進行對齊處理，包括：

按照預(yù)設(shè)特征維度對所述音頻特征及所述語義分割特征進行維度縮放處理，生成目標(biāo)音頻特征及目標(biāo)語義分割特征；

將所述目標(biāo)音頻特征與所述目標(biāo)語義分割特征進行對齊處理。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海幻電信息科技有限公司，未經(jīng)上海幻電信息科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011437857.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于路面壓電的引導(dǎo)指示步道
下一篇：一種方便排污的水產(chǎn)養(yǎng)殖池

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N5-00 電視系統(tǒng)的零部件
H04N5-04 .同步
H04N5-14 .視頻圖像信號電路
H04N5-222 .電視演播室線路；電視演播室裝置；電視演播室設(shè)備
H04N5-30 .轉(zhuǎn)變光或模擬信息為電信號
H04N5-38 .發(fā)射機電路

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】