[發(fā)明專利]基于人工智能的直播方法、裝置、設備及存儲介質(zhì)有效

申請?zhí)枺?/td>	202110184746.2	申請日：	2019-12-19
公開（公告）號：	CN112995706B	公開（公告）日：	2022-04-19
發(fā)明（設計）人：	朱紹明	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	H04N21/233	分類號：	H04N21/233;H04N21/234;H04N21/2343;H04N21/478;H04N21/2187;G06F21/64
代理公司：	北京派特恩知識產(chǎn)權代理有限公司 11270	代理人：	趙翠萍;張穎玲
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于人工智能直播方法裝置設備存儲介質(zhì)
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種基于人工智能的直播方法、裝置、設備及存儲介質(zhì)；方法包括：接收用于供虛擬主播表演的給定文本；對所述給定文本對應的臉部特征進行特效渲染處理，得到包括所述臉部特征的臉部圖像；對所述臉部圖像和背景圖像進行合成處理，得到對應所述虛擬主播的圖像幀；基于所述虛擬主播的圖像幀和對應所述給定文本的音頻數(shù)據(jù)，合成對應所述給定文本的推流數(shù)據(jù)包；向客戶端發(fā)送所述推流數(shù)據(jù)包，通過本發(fā)明，能夠?qū)⑽谋緮?shù)據(jù)自動實時合成為視頻推送到客戶端，從而有效提高直播的實時性、并降低直播勞動力成本。

技術領域

本發(fā)明涉及人工智能技術，尤其涉及一種基于人工智能的直播方法、裝置、設備及存儲介質(zhì)。

背景技術

人工智能(AI，Artificial Intelligence)是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能，感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法和技術及應用系統(tǒng)。

隨著通信技術的發(fā)展，網(wǎng)絡通信帶寬得到很大的提高，視頻直播技術也日趨成熟，在各個方面得到應用，同時隨著人工智能技術的發(fā)展，文本轉(zhuǎn)語音技術與圖像合成技術也成為研究熱點，視頻直播技術與人工智能技術的結(jié)合可以在許多地方發(fā)揮作用，比如代替真人進行新聞虛擬播報、代替游戲主播進行游戲虛擬解說等，具有廣闊的應用前景，但是，在虛擬視頻直播技術中，音頻與圖像的生成需要耗費大量的計算時間，難以保證虛擬視頻直播的實時性。

發(fā)明內(nèi)容

本發(fā)明實施例提供一種基于人工智能的直播方法、裝置、設備及存儲介質(zhì)，能夠?qū)⑽谋緮?shù)據(jù)自動實時合成為視頻推送到客戶端，從而有效提高視頻播放的實時性、并降低直播勞動力成本。

本發(fā)明實施例的技術方案是這樣實現(xiàn)的：

本發(fā)明實施例提供一種基于人工智能的直播方法，包括：

接收用于供虛擬主播表演的給定文本；

對所述給定文本對應的臉部特征進行特效渲染處理，得到包括所述臉部特征的臉部圖像；

對所述臉部圖像和背景圖像進行合成處理，得到對應所述虛擬主播的圖像幀；

基于所述虛擬主播的圖像幀和對應所述給定文本的音頻數(shù)據(jù)，合成對應所述給定文本的推流數(shù)據(jù)包；

向客戶端發(fā)送所述推流數(shù)據(jù)包。

本發(fā)明實施例提供一種基于人工智能的直播裝置，包括：

文本轉(zhuǎn)語音請求模塊，用于接收用于供虛擬主播表演的給定文本；

渲染模塊，用于對所述給定文本對應的臉部特征進行特效渲染處理，得到包括所述臉部特征的臉部圖像；對所述臉部圖像和背景圖像進行合成處理，得到對應所述虛擬主播的圖像幀；基于所述虛擬主播的圖像幀和對應所述給定文本的音頻數(shù)據(jù)，合成對應所述給定文本的推流數(shù)據(jù)包；

視頻推流模塊，用于向客戶端發(fā)送所述推流數(shù)據(jù)包。

在上述方案中，所述文本轉(zhuǎn)語音請求模塊，還用于：所述接收用于供虛擬主播表演的給定文本之后，對所述給定文本進行劃分處理，得到對應所述給定文本的多個語段；生成對應任意一個所述語段的媒體數(shù)據(jù)包，并繼續(xù)實時處理下一個語段，以生成對應所述下一個語段的媒體數(shù)據(jù)包；其中，所述媒體數(shù)據(jù)包包括根據(jù)所述語段獲取的音頻數(shù)據(jù)和臉部特征，且所述音頻數(shù)據(jù)和所述臉部特征與所述虛擬主播對應。

在上述方案中，所述文本轉(zhuǎn)語音請求模塊，還用于：所述接收用于供虛擬主播表演的給定文本之后，根據(jù)所述給定文本實時獲取對應所述虛擬主播的音頻數(shù)據(jù)和臉部特征；基于所述虛擬主播的音頻數(shù)據(jù)和臉部特征，形成至少一個媒體數(shù)據(jù)包，并繼續(xù)處理下一個所述給定文本。

在上述方案中，所述文本轉(zhuǎn)語音請求模塊，還用于：

當接收到所述給定文本時，實時將所述給定文本轉(zhuǎn)化為對應所述給定文本的詞向量；

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110184746.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。