[發明專利]交互方法、裝置、設備及存儲介質在審
| 申請號: | 202111507859.8 | 申請日: | 2021-12-10 |
| 公開(公告)號: | CN113923471A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 葉天兵 | 申請(專利權)人: | 阿里巴巴達摩院(杭州)科技有限公司 |
| 主分類號: | H04N21/233 | 分類號: | H04N21/233;H04N21/2343;H04N21/439;H04N21/4402;H04N7/14;G10L15/22;G10L15/26;G06T13/20;G06T13/40;G06F3/01;G06V40/20 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 張子青 |
| 地址: | 310023 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 交互 方法 裝置 設備 存儲 介質 | ||
本公開涉及一種交互方法、裝置、設備及存儲介質。由于原視頻信息可以是終端采集到的真實人物的視頻信息,原音頻信息是終端采集到的真實人物的音頻信息。終端將真實人物的視頻信息和音頻信息分別編碼后發送給云端服務器,云端服務器可以根據真實人物的音頻信息生成包括第一虛擬人物的目標視頻信息,根據真實人物的視頻信息生成由第一虛擬人物或其他虛擬人物播報的目標音頻信息。當云端服務器將第一虛擬人物的目標視頻信息和由第一虛擬人物或其他虛擬人物播報的目標音頻信息分別編碼后發送給終端時,從而實現了真實人物的視頻信息和第一虛擬人物的目標視頻信息之間的實時視訊。使得聽覺或語言有障礙的用戶與正常人進行視頻通訊時可以進行有效溝通。
技術領域
本公開涉及信息技術領域,尤其涉及一種交互方法、裝置、設備及存儲介質。
背景技術
隨著科技的不斷發展,終端可以采集獲得真實人物的視頻信息,并將該真實人物的視頻信息推送給云端,云端可以生成虛擬人物的視頻信息。但是,真實人物的視頻信息和虛擬人物的視頻信息無法進行實時視訊。另外,目前真實人物之間的視頻通訊越來越普遍和便利,但是,對于聽覺有障礙或語言有障礙的用戶來說,與正常人進行視頻通訊時,就會變得無法有效溝通。
發明內容
為了解決上述技術問題或者至少部分地解決上述技術問題,本公開提供了一種交互方法、裝置、設備及存儲介質,以實現真實人物的視頻信息和第一虛擬人物的目標視頻信息之間的實時視訊。
第一方面,本公開實施例提供一種交互方法,包括:
獲取原音頻流數據和原視頻流數據;
對所述原音頻流數據進行解碼得到原音頻信息,對所述原視頻流數據進行解碼得到原視頻信息,所述原視頻信息包括真實人物;
對所述原音頻信息進行語音識別,并根據語音識別結果生成目標視頻信息,所述目標視頻信息包括第一虛擬人物;
對所述原視頻信息進行動作識別,并根據動作識別結果生成目標音頻信息;
對所述目標視頻信息進行編碼得到目標視頻流數據,對所述目標音頻信息進行編碼得到目標音頻流數據;
推送所述目標視頻流數據和所述目標音頻流數據。
第二方面,本公開實施例提供一種交互裝置,包括:
獲取模塊,用于獲取原音頻流數據和原視頻流數據;
解碼模塊,用于對所述原音頻流數據進行解碼得到原音頻信息,對所述原視頻流數據進行解碼得到原視頻信息,所述原視頻信息包括真實人物;
生成模塊,用于對所述原音頻信息進行語音識別,并根據語音識別結果生成目標視頻信息,所述目標視頻信息包括第一虛擬人物;對所述原視頻信息進行動作識別,并根據動作識別結果生成目標音頻信息;
編碼模塊,用于對所述目標視頻信息進行編碼得到目標視頻流數據,對所述目標音頻信息進行編碼得到目標音頻流數據;
推送模塊,用于推送所述目標視頻流數據和所述目標音頻流數據。
第三方面,本公開實施例提供一種電子設備,包括:
存儲器;
處理器;以及
計算機程序;
其中,所述計算機程序存儲在所述存儲器中,并被配置為由所述處理器執行以實現如第一方面所述的方法。
第四方面,本公開實施例提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行以實現第一方面所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴達摩院(杭州)科技有限公司,未經阿里巴巴達摩院(杭州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111507859.8/2.html,轉載請聲明來源鉆瓜專利網。





