[發(fā)明專利]背景音頻構(gòu)建方法及裝置有效
| 申請?zhí)枺?/td> | 202011437857.1 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112584062B | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計)人: | 張奕 | 申請(專利權(quán))人: | 上海幻電信息科技有限公司 |
| 主分類號: | H04N5/265 | 分類號: | H04N5/265;G06T7/10 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 201203 上海市浦東新區(qū)中國(上海)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 背景 音頻 構(gòu)建 方法 裝置 | ||
1.一種背景音頻構(gòu)建方法,其特征在于,包括:
對待處理視頻數(shù)據(jù)進行語義分割生成對應(yīng)的語義分割圖,并基于所述語義分割圖提取所述待處理視頻數(shù)據(jù)的語義分割特征,其中,所述語義分割特征包括類別標(biāo)簽分布統(tǒng)計、邊緣像素占比統(tǒng)計以及前后關(guān)鍵幀語義分割圖差分統(tǒng)計,所述類別標(biāo)簽分布統(tǒng)計為各類別標(biāo)簽對應(yīng)像素數(shù)量的比率,所述邊緣像素占比統(tǒng)計為統(tǒng)計像素各類別標(biāo)簽邊緣像素占該類別標(biāo)簽總像素數(shù)的比率,所述關(guān)鍵幀語義分割圖差分統(tǒng)計為對相鄰視頻分段關(guān)鍵幀對應(yīng)語義分割圖之間相同位置像素類別標(biāo)簽差異進行統(tǒng)計;
提取預(yù)先建立的音頻集合中各音頻文件的音頻特征,其中,所述音頻特征包括頻譜信號和音頻類型;
將所述語義分割特征和所述音頻特征縮放至相同維度,對所述音頻特征與所述語義分割特征進行對齊處理,根據(jù)對齊結(jié)果在所述音頻集合中篩選目標(biāo)音頻文件,并基于所述目標(biāo)音頻文件構(gòu)建所述待處理視頻數(shù)據(jù)的背景音頻;
其中,對所述音頻特征與所述語義分割特征進行對齊處理,包括:
將所述音頻特征及所述語義分割特征輸入音頻對齊模型進行對齊處理。
2.根據(jù)權(quán)利要求1所述的背景音頻構(gòu)建方法,其特征在于,所述對待處理視頻數(shù)據(jù)進行語義分割生成對應(yīng)的語義分割圖,包括:
按照預(yù)設(shè)時長閾值對所述待處理視頻數(shù)據(jù)進行視頻片段切分;
提取切分結(jié)果中每個第一視頻片段的第一關(guān)鍵幀;
將所述第一關(guān)鍵幀輸入語義分割模型進行處理,生成所述每個第一視頻片段的第一語義分割圖。
3.根據(jù)權(quán)利要求2所述的背景音頻構(gòu)建方法,其特征在于,所述基于所述語義分割圖提取所述待處理視頻數(shù)據(jù)的語義分割特征,包括:
基于所述第一語義分割圖提取所述每個第一視頻片段的第一語義分割特征;
計算切分結(jié)果中各第一視頻片段的第一語義分割特征的均值,并將所述均值作為所述待處理視頻數(shù)據(jù)的語義分割特征。
4.根據(jù)權(quán)利要求2所述的背景音頻構(gòu)建方法,其特征在于,所述語義分割模型通過以下方式訓(xùn)練:
按照所述預(yù)設(shè)時長閾值對樣本視頻文件進行視頻片段切分;
提取切分結(jié)果中每個第二視頻片段的第二關(guān)鍵幀;
將所述第二關(guān)鍵幀作為樣本數(shù)據(jù),并將所述第二關(guān)鍵幀的語義分割圖中各像素點的類別標(biāo)識作為標(biāo)簽,輸入待訓(xùn)練的語義分割模型進行訓(xùn)練,獲得所述語義分割模型,所述語義分割模型使得所述第二關(guān)鍵幀與所述各像素點的類別標(biāo)識相關(guān)聯(lián)。
5.根據(jù)權(quán)利要求1所述的背景音頻構(gòu)建方法,其特征在于,所述提取預(yù)先建立的音頻集合中各音頻文件的音頻特征,包括:
按照預(yù)設(shè)時長閾值對所述音頻集合中的各音頻文件進行切分;
對切分結(jié)果中的每個第一音頻片段進行傅里葉變換,生成所述每個第一音頻片段的第一頻譜信號;
將所述第一頻譜信號輸入音頻特征提取模型進行處理,生成所述音頻集合中各音頻文件的音頻特征。
6.根據(jù)權(quán)利要求5所述的背景音頻構(gòu)建方法,其特征在于,所述音頻特征提取模型通過以下方式訓(xùn)練:
按照預(yù)設(shè)時長閾值對樣本音頻文件進行切分;
對切分結(jié)果中的每個第二音頻片段進行傅里葉變換,生成所述每個第二音頻片段的第二頻譜信號;
將所述第二頻譜信號作為樣本數(shù)據(jù),并將所述樣本音頻文件的音頻類型作為標(biāo)簽,輸入待訓(xùn)練的音頻特征提取模型進行訓(xùn)練,獲得所述音頻特征提取模型,所述音頻特征提取模型使得所述第二頻譜信號與所述音頻類型相關(guān)聯(lián)。
7.根據(jù)權(quán)利要求1或3所述的背景音頻構(gòu)建方法,其特征在于,所述將所述音頻特征與所述語義分割特征進行對齊處理,包括:
按照預(yù)設(shè)特征維度對所述音頻特征及所述語義分割特征進行維度縮放處理,生成目標(biāo)音頻特征及目標(biāo)語義分割特征;
將所述目標(biāo)音頻特征與所述目標(biāo)語義分割特征進行對齊處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海幻電信息科技有限公司,未經(jīng)上海幻電信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011437857.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





