[發(fā)明專利]基于人工智能的直播方法、裝置、設備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110184746.2 | 申請日: | 2019-12-19 |
| 公開(公告)號: | CN112995706B | 公開(公告)日: | 2022-04-19 |
| 發(fā)明(設計)人: | 朱紹明 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | H04N21/233 | 分類號: | H04N21/233;H04N21/234;H04N21/2343;H04N21/478;H04N21/2187;G06F21/64 |
| 代理公司: | 北京派特恩知識產(chǎn)權代理有限公司 11270 | 代理人: | 趙翠萍;張穎玲 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 直播 方法 裝置 設備 存儲 介質(zhì) | ||
本發(fā)明提供了一種基于人工智能的直播方法、裝置、設備及存儲介質(zhì);方法包括:接收用于供虛擬主播表演的給定文本;對所述給定文本對應的臉部特征進行特效渲染處理,得到包括所述臉部特征的臉部圖像;對所述臉部圖像和背景圖像進行合成處理,得到對應所述虛擬主播的圖像幀;基于所述虛擬主播的圖像幀和對應所述給定文本的音頻數(shù)據(jù),合成對應所述給定文本的推流數(shù)據(jù)包;向客戶端發(fā)送所述推流數(shù)據(jù)包,通過本發(fā)明,能夠?qū)⑽谋緮?shù)據(jù)自動實時合成為視頻推送到客戶端,從而有效提高直播的實時性、并降低直播勞動力成本。
技術領域
本發(fā)明涉及人工智能技術,尤其涉及一種基于人工智能的直播方法、裝置、設備及存儲介質(zhì)。
背景技術
人工智能(AI,Artificial Intelligence)是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法和技術及應用系統(tǒng)。
隨著通信技術的發(fā)展,網(wǎng)絡通信帶寬得到很大的提高,視頻直播技術也日趨成熟,在各個方面得到應用,同時隨著人工智能技術的發(fā)展,文本轉(zhuǎn)語音技術與圖像合成技術也成為研究熱點,視頻直播技術與人工智能技術的結(jié)合可以在許多地方發(fā)揮作用,比如代替真人進行新聞虛擬播報、代替游戲主播進行游戲虛擬解說等,具有廣闊的應用前景,但是,在虛擬視頻直播技術中,音頻與圖像的生成需要耗費大量的計算時間,難以保證虛擬視頻直播的實時性。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種基于人工智能的直播方法、裝置、設備及存儲介質(zhì),能夠?qū)⑽谋緮?shù)據(jù)自動實時合成為視頻推送到客戶端,從而有效提高視頻播放的實時性、并降低直播勞動力成本。
本發(fā)明實施例的技術方案是這樣實現(xiàn)的:
本發(fā)明實施例提供一種基于人工智能的直播方法,包括:
接收用于供虛擬主播表演的給定文本;
對所述給定文本對應的臉部特征進行特效渲染處理,得到包括所述臉部特征的臉部圖像;
對所述臉部圖像和背景圖像進行合成處理,得到對應所述虛擬主播的圖像幀;
基于所述虛擬主播的圖像幀和對應所述給定文本的音頻數(shù)據(jù),合成對應所述給定文本的推流數(shù)據(jù)包;
向客戶端發(fā)送所述推流數(shù)據(jù)包。
本發(fā)明實施例提供一種基于人工智能的直播裝置,包括:
文本轉(zhuǎn)語音請求模塊,用于接收用于供虛擬主播表演的給定文本;
渲染模塊,用于對所述給定文本對應的臉部特征進行特效渲染處理,得到包括所述臉部特征的臉部圖像;對所述臉部圖像和背景圖像進行合成處理,得到對應所述虛擬主播的圖像幀;基于所述虛擬主播的圖像幀和對應所述給定文本的音頻數(shù)據(jù),合成對應所述給定文本的推流數(shù)據(jù)包;
視頻推流模塊,用于向客戶端發(fā)送所述推流數(shù)據(jù)包。
在上述方案中,所述文本轉(zhuǎn)語音請求模塊,還用于:所述接收用于供虛擬主播表演的給定文本之后,對所述給定文本進行劃分處理,得到對應所述給定文本的多個語段;生成對應任意一個所述語段的媒體數(shù)據(jù)包,并繼續(xù)實時處理下一個語段,以生成對應所述下一個語段的媒體數(shù)據(jù)包;其中,所述媒體數(shù)據(jù)包包括根據(jù)所述語段獲取的音頻數(shù)據(jù)和臉部特征,且所述音頻數(shù)據(jù)和所述臉部特征與所述虛擬主播對應。
在上述方案中,所述文本轉(zhuǎn)語音請求模塊,還用于:所述接收用于供虛擬主播表演的給定文本之后,根據(jù)所述給定文本實時獲取對應所述虛擬主播的音頻數(shù)據(jù)和臉部特征;基于所述虛擬主播的音頻數(shù)據(jù)和臉部特征,形成至少一個媒體數(shù)據(jù)包,并繼續(xù)處理下一個所述給定文本。
在上述方案中,所述文本轉(zhuǎn)語音請求模塊,還用于:
當接收到所述給定文本時,實時將所述給定文本轉(zhuǎn)化為對應所述給定文本的詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110184746.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務器,例如:VOD服務器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設備,如STB[機頂盒];相關操作
H04N21-60 .用于在服務器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡結(jié)構或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





