[發明專利]一種音頻處理方法、裝置、電子設備及存儲介質有效

申請號：	202011497991.0	申請日：	2020-12-17
公開（公告）號：	CN112637632B	公開（公告）日：	2023-04-07
發明（設計）人：	李釗	申請（專利權）人：	北京達佳互聯信息技術有限公司
主分類號：	H04N21/233	分類號：	H04N21/233;H04N21/439;H04N21/472;G10L25/78
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	李娜
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音頻處理方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開關于一種音頻處理方法、裝置、電子設備及存儲介質，所述方法包括：對待處理視頻的原音頻數據進行人聲檢測，得到人聲檢測結果；獲取所述待處理視頻的配樂音頻數據；根據所述人聲檢測結果對所述待處理視頻的原音頻數據和所述配樂音頻數據進行疊加處理。也就是說，本公開中，根據人聲檢測結果對所述待處理視頻的原音頻數據和所述配樂音頻數據進行疊加處理，保留了視頻中原音頻數據中的原人聲，降低對應視頻片段中的配樂音量，提升了視頻中的音頻處理效果，使處理后的視頻更具豐富度和表現力。

技術領域

本公開涉及音頻處理技術領域，尤其涉及一種音頻處理方法、裝置、電子設備及存儲介質。

背景技術

在視頻編輯時，通常對用戶導入視頻的進行轉碼，再抽取圖像幀，然后分析抽取圖像幀的清晰度、色彩豐富度、畫面意義顯著性等，在此基礎上，以不同權重對視頻畫面的質量打分，依據一定的量化標準(如裁剪時長范圍、是否需按音樂節拍卡點等)，裁剪出最優質、精彩的視頻內容，并根據其他維度(如視頻內容的場景等)，為視頻選擇合適音樂和圖像裝飾特效。

相關技術中，在通過圖像處理技術對視頻或者混合的視頻和圖片進行智能化裁剪編輯時，注重視頻畫面的基礎特征(比如清晰度、色彩豐富度以及畫面意義等)、內容場景等基礎信息，未將視頻中的原音頻作為智能化編輯的參考信息。目前，對視頻進行智能化裁剪編輯時，會將視頻中的原音頻內容簡單化處理，比如將視頻中的原聲的音量默認為零，然后，基于該視頻的內容和場景，為該視頻選擇一首合適的配樂，從而生成合成視頻。

但是，相關技術中，由于視頻中的音頻作為該視頻內容中的重要信息，在智能化裁剪編輯的過程中，會被完全抹掉，使該視頻丟失了原有的音頻(比如人聲等)，降低了視頻的表現力。

發明內容

本公開提供一種音頻處理方法、裝置、電子設備及存儲介質，以至少解決相關技術中由于在對視頻進行智能裁剪編輯時，完全抹掉視頻中的音頻，導致視頻的表現力差的技術問題。本公開的技術方案如下：

根據本公開實施例的第一方面，提供一種音頻處理方法，包括：

對待處理視頻的原音頻數據進行人聲檢測，得到人聲檢測結果；

獲取所述待處理視頻的配樂音頻數據；

根據所述人聲檢測結果對所述待處理視頻的原音頻數據和所述配樂音頻數據進行疊加處理。

可選的，所述根據所述人聲檢測結果對所述待處理視頻的原音頻數據和所述配樂音頻數據進行疊加處理，包括：

根據所述人聲檢測結果分別對所述原音頻數據和所述配樂音頻數據進行增益處理；

將所述增益處理后的所述原音頻數據和所述配樂音頻數據進行疊加。

可選的，所述人聲檢測結果包括：人聲出現的音頻時間段；所述根據所述人聲檢測結果分別對所述原音頻數據和所述配樂音頻數據進行增益處理，包括：

將所述人聲出現的音頻時間段對應的所述原音頻數據乘以第一增益系數，并將該音頻時間段對應的所述配樂音頻數據乘以第二增益系數；