[發(fā)明專利]虛擬主播的直播方法、裝置及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202310361605.2 | 申請日: | 2023-04-07 |
| 公開(公告)號: | CN116095357B | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計)人: | 王英;張青輝 | 申請(專利權(quán))人: | 世優(yōu)(北京)科技有限公司 |
| 主分類號: | H04N21/2187 | 分類號: | H04N21/2187;H04N21/2343;H04N21/81;G06V40/16;G10L15/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 虛擬 直播 方法 裝置 系統(tǒng) | ||
本公開提供了一種虛擬主播的直播方法、裝置及系統(tǒng),該方法包括:實時捕捉現(xiàn)實主播的面部動作數(shù)據(jù)和語音數(shù)據(jù);對所述面部動作數(shù)據(jù)進行分析,得到所述現(xiàn)實主播的口型數(shù)據(jù);對所述語音數(shù)據(jù)進行分析,得到與所述語音數(shù)據(jù)對應(yīng)的文字內(nèi)容以及語音特征,對所述文字內(nèi)容進行處理,將處理后的所述文字內(nèi)容轉(zhuǎn)換為音素序列;基于所述音素序列和所述語音特征,對所述口型數(shù)據(jù)進行調(diào)整,并基于調(diào)整后的所述口型數(shù)據(jù)來生成用于直播的直播視頻流,然后將所述直播視頻流推流至終端設(shè)備。本公開解決了虛擬主播口型對不準的問題。
技術(shù)領(lǐng)域
本公開涉及直播技術(shù)領(lǐng)域,具體而言,涉及一種虛擬主播的直播方法、裝置及系統(tǒng)。
背景技術(shù)
虛擬主播是一種由人工智能(Artificial?Intelligence,AI)技術(shù)生成的虛擬人物,可以在現(xiàn)實主播的控制下進行直播,也可以在AI算法的控制下進行直播,還可以在現(xiàn)實主播和AI算法的共同控制下進行直播。
在現(xiàn)實主播控制下進行直播時,傳感器、攝像頭、麥克風等設(shè)備會獲取現(xiàn)實主播的動作信息和語音信息,然后實時應(yīng)用到虛擬主播身上,從而使虛擬主播的動作和語音與現(xiàn)實主播保持一致。
虛擬主播的口型的對準通常是通過實時語音識別技術(shù)來實現(xiàn)的。該技術(shù)可以將現(xiàn)實主播的語音實時轉(zhuǎn)換為文字,并根據(jù)文字的內(nèi)容生成相應(yīng)的口型動作,使虛擬主播看起來像在準確地模仿現(xiàn)實主播的說話動作。
盡管現(xiàn)有的語音識別技術(shù)已經(jīng)相當成熟,但仍然難以完全準確地識別所有語音內(nèi)容。此外,現(xiàn)有的口型動作生成算法也無法完全準確地捕捉到現(xiàn)實主播的口型特征。因此,虛擬主播的口型對準技術(shù)仍需進一步的改進和發(fā)展,以提高口型動作的準確度。
發(fā)明內(nèi)容
本公開實施例提供了一種虛擬主播的直播方法、裝置及系統(tǒng),以至少解決虛擬主播口型對不準的技術(shù)問題。
根據(jù)本公開實施例的一個方面,提供了一種虛擬主播的直播方法,包括:實時捕捉現(xiàn)實主播的面部動作數(shù)據(jù)和語音數(shù)據(jù),對所述面部動作數(shù)據(jù)進行分析,得到所述現(xiàn)實主播的口型數(shù)據(jù);對所述語音數(shù)據(jù)進行分析,得到與所述語音數(shù)據(jù)對應(yīng)的文字內(nèi)容以及語音特征,并對所述文字內(nèi)容進行處理,將處理后的所述文字內(nèi)容轉(zhuǎn)換為音素序列;基于所述音素序列和所述語音特征,對所述口型數(shù)據(jù)進行調(diào)整;基于調(diào)整后的所述口型數(shù)據(jù)來生成用于直播的直播視頻流,并將所述直播視頻流推流至終端設(shè)備。
根據(jù)本公開實施例的另一個方面,提供了一種虛擬主播的直播裝置,包括:獲取模塊,被配置為實時獲取現(xiàn)實主播的面部動作數(shù)據(jù)和語音數(shù)據(jù);面部分析模塊,被配置為對所述面部動作數(shù)據(jù)進行分析,得到所述現(xiàn)實主播的口型數(shù)據(jù);語音分析模塊,被配置為對所述語音數(shù)據(jù)進行分析,得到與所述語音數(shù)據(jù)對應(yīng)的文字內(nèi)容以及語音特征,并對所述文字內(nèi)容進行處理,將處理后的所述文字內(nèi)容轉(zhuǎn)換為音素序列;調(diào)整模塊,被配置為基于所述音素序列和所述語音特征,對所述口型數(shù)據(jù)進行調(diào)整;推流模塊,被配置為基于調(diào)整后的所述口型數(shù)據(jù)來生成用于直播的直播視頻流,并將所述直播視頻流推流至終端設(shè)備。
根據(jù)本公開實施例的另一個方面,提供了一種虛擬主播的直播系統(tǒng),包括:如上所述的虛擬主播的直播裝置;終端設(shè)備,用于播放所述虛擬主播的直播裝置推流的直播視頻流。
在本公開實施例中,基于音素序列和語音特征,對口型數(shù)據(jù)進行調(diào)整,并基于調(diào)整后的口型數(shù)據(jù)來生成用于直播的直播視頻流,從而解決了虛擬主播口型對不準的問題,具有提高虛擬主播的逼真度的有益效果。
附圖說明
構(gòu)成本公開的一部分的說明書附圖用來提供對本公開的進一步理解,本公開的示意性實施例及其說明用于解釋本公開,并不構(gòu)成對本公開的不當限定。在附圖中:
圖1是根據(jù)本申請實施例的一種虛擬主播的直播系統(tǒng)的架構(gòu)示意圖;
圖2是根據(jù)本申請實施例的一種虛擬主播的直播方法的流程示意圖;
圖3是根據(jù)本申請實施例的另一種虛擬主播的直播方法的流程示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于世優(yōu)(北京)科技有限公司,未經(jīng)世優(yōu)(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310361605.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





