[發明專利]直播間內的音頻替換方法、系統、裝置及計算機設備在審

申請號：	202210208196.8	申請日：	2022-03-03
公開（公告）號：	CN114630144A	公開（公告）日：	2022-06-14
發明（設計）人：	曾家樂	申請（專利權）人：	廣州方硅信息技術有限公司
主分類號：	H04N21/233	分類號：	H04N21/233;H04N21/2187;H04N21/258;H04N21/439;G10L15/22;G10L15/26;G10L15/30;G10L13/02
代理公司：	廣州駿思知識產權代理有限公司 44425	代理人：	潘桂生;孫小玉
地址：	511400 廣東省廣州***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	直播音頻替換方法系統裝置計算機設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種直播間內的音頻替換方法，其特征在于，所述方法包括步驟：

服務器響應于音頻轉化指令，獲取第一發言人信息和所述第一發言人信息對應的第一音頻流數據；將所述第一音頻流數據轉化為第一文本流數據；根據所述第一發言人信息，確定所述第一文本流數據對應的第一發言人標識，將所述第一文本流數據和所述第一文本流數據對應的第一發言人標識發送至直播間內的觀眾客戶端；其中，所述第一發言人信息為所述直播間內的當前發言人對應的發言人信息；

所述觀眾客戶端響應于音頻生成指令，獲取所述第一文本流數據和所述第一文本流數據對應的第一發言人標識；輸入所述第一文本流數據至所述第一發言人標識對應的預訓練好的音頻生成模型，得到第二音頻流數據；其中，所述第一發言人標識對應的預訓練好的音頻生成模型為根據所述第一發言人標識對應的音頻流訓練數據和所述第一發言人標識對應的文本流訓練數據進行訓練得到的，所述第一發言人標識對應的文本流訓練數據為轉換所述第一發言人標識對應的音頻流訓練數據得到的；

所述觀眾客戶端替換所述直播內輸出的所述第一音頻流數據為所述第二音頻流數據。

2.根據權利要求1所述的直播間內的音頻替換方法，其特征在于：所述第一發言人信息在視頻直播下為所述直播間內所述當前發言人對應的人臉信息，所述第一發言人信息在語音直播下為所述直播間內所述當前發言人對應的麥序信息。

3.根據權利要求1所述的直播間內的音頻替換方法，其特征在于，所述獲取第一發言人信息和所述第一發言人信息對應的第一音頻流數據，包括步驟：

所述服務器接收主播客戶端采集的音視頻流數據；其中，所述音視頻流數據包括音頻流數據和視頻流數據；所述視頻流數據中包括若干幀視頻畫面；

所述服務器在所述視頻畫面中進行人臉定位，得到至少一個人臉區域，并在所述視頻畫面中的所述人臉區域內監測發言動作，確定所述當前發言人和所述當前發言人對應的人臉區域；

所述服務器根據所述視頻畫面和所述當前發言人對應的人臉區域，獲取所述當前發言人對應的人臉信息為所述第一發言人信息；

所述服務器獲取當前接收的所述音頻流數據為所述第一發言人信息對應的第一音頻流數據。

4.根據權利要求3所述的直播間內的音頻替換方法，其特征在于，所述服務器在所述視頻畫面中進行人臉定位，得到至少一個人臉區域之后，包括步驟：

所述服務器在所述視頻畫面中的所述人臉區域內進行活體檢測，獲取所述直播間內的發言人對應的人臉區域和所述直播間內的發言人數量；

若所述直播間內的發言人數量不少于兩個，所述在所述視頻畫面中的所述人臉區域內監測發言動作，確定所述當前發言人和所述當前發言人對應的人臉區域，包括步驟：

所述服務器在所述視頻畫面中的所述發言人對應的人臉區域內監測發言動作，確定所述當前發言人和所述當前發言人對應的人臉區域；

若所述直播間內的發言人數量為一個，所述在所述視頻畫面中的所述人臉區域內監測發言動作，確定所述當前發言人和所述當前發言人對應的人臉區域，包括步驟：