[發(fā)明專利]虛擬主播的直播方法、裝置及系統(tǒng)有效

申請?zhí)枺?/td>	202310361605.2	申請日：	2023-04-07
公開（公告）號：	CN116095357B	公開（公告）日：	2023-07-04
發(fā)明（設(shè)計）人：	王英;張青輝	申請（專利權(quán)）人：	世優(yōu)（北京）科技有限公司
主分類號：	H04N21/2187	分類號：	H04N21/2187;H04N21/2343;H04N21/81;G06V40/16;G10L15/02
代理公司：	暫無信息	代理人：	暫無信息
地址：	100020 北京市朝陽***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	虛擬直播方法裝置系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種虛擬主播的直播方法、裝置及系統(tǒng)，該方法包括：實時捕捉現(xiàn)實主播的面部動作數(shù)據(jù)和語音數(shù)據(jù)；對所述面部動作數(shù)據(jù)進行分析，得到所述現(xiàn)實主播的口型數(shù)據(jù)；對所述語音數(shù)據(jù)進行分析，得到與所述語音數(shù)據(jù)對應(yīng)的文字內(nèi)容以及語音特征，對所述文字內(nèi)容進行處理，將處理后的所述文字內(nèi)容轉(zhuǎn)換為音素序列；基于所述音素序列和所述語音特征，對所述口型數(shù)據(jù)進行調(diào)整，并基于調(diào)整后的所述口型數(shù)據(jù)來生成用于直播的直播視頻流，然后將所述直播視頻流推流至終端設(shè)備。本公開解決了虛擬主播口型對不準的問題。

技術(shù)領(lǐng)域

本公開涉及直播技術(shù)領(lǐng)域，具體而言，涉及一種虛擬主播的直播方法、裝置及系統(tǒng)。

背景技術(shù)

虛擬主播是一種由人工智能（Artificial?Intelligence，AI）技術(shù)生成的虛擬人物，可以在現(xiàn)實主播的控制下進行直播，也可以在AI算法的控制下進行直播，還可以在現(xiàn)實主播和AI算法的共同控制下進行直播。

在現(xiàn)實主播控制下進行直播時，傳感器、攝像頭、麥克風等設(shè)備會獲取現(xiàn)實主播的動作信息和語音信息，然后實時應(yīng)用到虛擬主播身上，從而使虛擬主播的動作和語音與現(xiàn)實主播保持一致。

虛擬主播的口型的對準通常是通過實時語音識別技術(shù)來實現(xiàn)的。該技術(shù)可以將現(xiàn)實主播的語音實時轉(zhuǎn)換為文字，并根據(jù)文字的內(nèi)容生成相應(yīng)的口型動作，使虛擬主播看起來像在準確地模仿現(xiàn)實主播的說話動作。

盡管現(xiàn)有的語音識別技術(shù)已經(jīng)相當成熟，但仍然難以完全準確地識別所有語音內(nèi)容。此外，現(xiàn)有的口型動作生成算法也無法完全準確地捕捉到現(xiàn)實主播的口型特征。因此，虛擬主播的口型對準技術(shù)仍需進一步的改進和發(fā)展，以提高口型動作的準確度。

發(fā)明內(nèi)容

本公開實施例提供了一種虛擬主播的直播方法、裝置及系統(tǒng)，以至少解決虛擬主播口型對不準的技術(shù)問題。

根據(jù)本公開實施例的一個方面，提供了一種虛擬主播的直播方法，包括：實時捕捉現(xiàn)實主播的面部動作數(shù)據(jù)和語音數(shù)據(jù)，對所述面部動作數(shù)據(jù)進行分析，得到所述現(xiàn)實主播的口型數(shù)據(jù)；對所述語音數(shù)據(jù)進行分析，得到與所述語音數(shù)據(jù)對應(yīng)的文字內(nèi)容以及語音特征，并對所述文字內(nèi)容進行處理，將處理后的所述文字內(nèi)容轉(zhuǎn)換為音素序列；基于所述音素序列和所述語音特征，對所述口型數(shù)據(jù)進行調(diào)整；基于調(diào)整后的所述口型數(shù)據(jù)來生成用于直播的直播視頻流，并將所述直播視頻流推流至終端設(shè)備。

根據(jù)本公開實施例的另一個方面，提供了一種虛擬主播的直播裝置，包括：獲取模塊，被配置為實時獲取現(xiàn)實主播的面部動作數(shù)據(jù)和語音數(shù)據(jù)；面部分析模塊，被配置為對所述面部動作數(shù)據(jù)進行分析，得到所述現(xiàn)實主播的口型數(shù)據(jù)；語音分析模塊，被配置為對所述語音數(shù)據(jù)進行分析，得到與所述語音數(shù)據(jù)對應(yīng)的文字內(nèi)容以及語音特征，并對所述文字內(nèi)容進行處理，將處理后的所述文字內(nèi)容轉(zhuǎn)換為音素序列；調(diào)整模塊，被配置為基于所述音素序列和所述語音特征，對所述口型數(shù)據(jù)進行調(diào)整；推流模塊，被配置為基于調(diào)整后的所述口型數(shù)據(jù)來生成用于直播的直播視頻流，并將所述直播視頻流推流至終端設(shè)備。

根據(jù)本公開實施例的另一個方面，提供了一種虛擬主播的直播系統(tǒng)，包括：如上所述的虛擬主播的直播裝置；終端設(shè)備，用于播放所述虛擬主播的直播裝置推流的直播視頻流。

在本公開實施例中，基于音素序列和語音特征，對口型數(shù)據(jù)進行調(diào)整，并基于調(diào)整后的口型數(shù)據(jù)來生成用于直播的直播視頻流，從而解決了虛擬主播口型對不準的問題，具有提高虛擬主播的逼真度的有益效果。

附圖說明

構(gòu)成本公開的一部分的說明書附圖用來提供對本公開的進一步理解，本公開的示意性實施例及其說明用于解釋本公開，并不構(gòu)成對本公開的不當限定。在附圖中：

圖1是根據(jù)本申請實施例的一種虛擬主播的直播系統(tǒng)的架構(gòu)示意圖；

圖2是根據(jù)本申請實施例的一種虛擬主播的直播方法的流程示意圖；

圖3是根據(jù)本申請實施例的另一種虛擬主播的直播方法的流程示意圖；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于世優(yōu)（北京）科技有限公司，未經(jīng)世優(yōu)（北京）科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202310361605.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

H 電學

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]虛擬主播的直播方法、裝置及系統(tǒng)有效

專利文獻下載