[發明專利]音頻處理方法、裝置及存儲介質在審

申請號：	202310303380.5	申請日：	2023-03-24
公開（公告）號：	CN116320222A	公開（公告）日：	2023-06-23
發明（設計）人：	請求不公布姓名	申請（專利權）人：	北京生數科技有限公司
主分類號：	H04N5/265	分類號：	H04N5/265;G10L21/0208;G10L15/26;G10L15/20
代理公司：	北京匯鑫君達知識產權代理有限公司 11769	代理人：	黃啟法
地址：	100084 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	音頻處理方法裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例涉及人工智能技術領域，并提供一種音頻處理方法、裝置及存儲介質，該方法包括：獲取目標對象在第一場景下錄制的根視頻；獲取驅動生成虛擬形象的音頻文件；對該音頻文件中分貝小于預設閾值且播放時長大干預設時長的異常分片對應的音頻數據進行第一過濾處理，獲得第一音頻數據；根據音頻數據對應的信號屬性對該第一音頻數據進行第二過濾處理，獲得第二音頻數據；利用該第二音頻數據驅動該根視頻，獲得該目標對象的虛擬形象。本方案能夠解決語音識別結果與人物唇形不一致的現象，提高虛擬形象的視覺效果。

技術領域

本申請涉及人工智能技術領域，進一步涉及計算機視覺技術領域，尤其涉及一種音頻處理方法、裝置及存儲介質。

背景技術

目前，虛擬形象合成可以應用在不同的場合，例如：在線教育過程中，由虛擬老師提供教學服務，不僅可以大大減輕老師的負擔，還可以降低教學成本，比單純的錄播課等有更好的教學體驗。除此之外，虛擬形象還可以應用在更廣泛的場合中，例如：人工智能(Artificial?Intelligence，AI)新聞主播、游戲、動畫和應用程序等實際的商業場景中具有極大的商業價值。目前對虛擬形象的合成，往往采用自然人在特定環境下錄制的音頻文件驅動根視頻生成虛擬視頻，但在特定環境下可能存在噪聲，例如說話的時候夾雜著拍桌子、跺腳、鳥叫、咳嗽等影響(即混合音)，導致后續音頻驅動根視頻時，語音識別的結果與人物唇形不一致，影響后期虛擬形象的視覺效果。

發明內容

本申請實施例提供了一種音頻處理方法、裝置及存儲介質，能夠解決語音識別結果與人物唇形不一致的現象，提高虛擬形象的視覺效果。

第一方面中，本申請實施例提供一種音頻處理方法，該方法包括：

獲取目標對象在第一場景下錄制的根視頻；

獲取驅動生成虛擬形象的音頻文件；

對該音頻文件中包含異常分片的音頻數據進行第一過濾處理，獲得第一音頻數據，其中，該異常分片為分貝小于預設閾值，且播放時長大于預設時長的音頻分片；

根據音頻數據對應的信號屬性對該第一音頻數據進行第二過濾處理，獲得第二音頻數據；

利用該第二音頻數據驅動該根視頻，獲得該目標對象的虛擬形象。

一些實施方式中，該根據音頻數據對應的信號屬性對該第一音頻數據進行第二過濾處理，獲得第二音頻數據，包括：

根據信號質量對該第一音頻數據進行第二過濾處理，將該第一音頻數據中信號質量不符合預設要求的音頻數據濾除，以獲得該第二音頻數據。

一些實施方式中，該根據信號質量對該第一音頻數據進行第二過濾處理，包括：

提取該第一音頻數據中聲音的波形；