[發(fā)明專利]用于生成視頻的方法、裝置、設(shè)備和介質(zhì)在審

申請?zhí)枺?/td>	202010182273.8	申請日：	2020-03-16
公開（公告）號：	CN111415662A	公開（公告）日：	2020-07-14
發(fā)明（設(shè)計）人：	殷翔	申請（專利權(quán)）人：	北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/26;G10L21/10;G10L13/04;G10L13/047;G10L13/08;G10L13/033;G10L25/63
代理公司：	北京海智友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11455	代理人：	鞏靖
地址：	100041 北京市石景山區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于生成視頻方法裝置設(shè)備介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開的實施例公開了用于生成視頻的方法、裝置、設(shè)備和介質(zhì)。該用于生成視頻的方法的一具體實施方式包括：獲取目標(biāo)用戶的用戶交互信息；基于用戶交互信息，生成針對用戶交互信息的反饋信息；基于反饋信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻。該實施方式可以通過生成視頻的方式與用戶進(jìn)行信息交互，由此提高了交互方式的多樣性，有助于避免用戶與真人進(jìn)行交互過程中產(chǎn)生的羞澀感。

技術(shù)領(lǐng)域

本公開的實施例涉及計算機(jī)技術(shù)領(lǐng)域，具體涉及用于生成視頻的方法、裝置、設(shè)備和介質(zhì)。

背景技術(shù)

人機(jī)交互技術(shù)(Human-Computer InteracTIon Techniques)是信息化技術(shù)發(fā)展的產(chǎn)物，是一種通過計算機(jī)輸入、輸出設(shè)備，以有效的方式實現(xiàn)人與計算機(jī)對話的技術(shù)。其實現(xiàn)了從人適應(yīng)計算機(jī)到計算機(jī)適應(yīng)人的轉(zhuǎn)化。

目前，人機(jī)交互方式不僅包括鍵盤輸入、手柄操作，還包括更加新奇的方式，例如，手指的微小動作、聲波在空氣中的振動、眼珠和舌頭的轉(zhuǎn)動等等，都可以實現(xiàn)信息傳遞，完成人與機(jī)器之間的“對話”。

發(fā)明內(nèi)容

本公開提出了用于生成視頻的方法、裝置、設(shè)備和介質(zhì)。

第一方面，本公開的實施例提供了一種用于生成視頻的方法，該方法包括：獲取目標(biāo)用戶的用戶交互信息；基于用戶交互信息，生成針對用戶交互信息的反饋信息；基于反饋信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻。

在一些實施例中，反饋信息為文本信息；以及，基于反饋信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻，包括：確定與文本信息相對應(yīng)的音素信息和語調(diào)信息；基于音素信息和語調(diào)信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻。

在一些實施例中，基于音素信息和語調(diào)信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻，包括：基于音素信息，確定待生成的語音音頻的音頻幀數(shù)量，以及待生成的圖像序列的圖像數(shù)量，其中，音頻幀數(shù)量與圖像數(shù)量相等；基于音素信息和語調(diào)信息，生成語音音頻和圖像序列，其中，語音音頻包括的音頻幀的數(shù)量為音頻幀數(shù)量，圖像序列中的圖像的數(shù)量為圖像數(shù)量，圖像序列指示預(yù)設(shè)人員執(zhí)行與語音音頻相對應(yīng)的動作；將語音音頻和圖像序列進(jìn)行合成，得到用于指示預(yù)設(shè)人員執(zhí)行與語音音頻相對應(yīng)的動作的視頻。

在一些實施例中，語音音頻中的音頻幀與圖像序列中的圖像一一對應(yīng)，圖像序列中的圖像的口型表征：預(yù)設(shè)人員發(fā)出與該圖像相對應(yīng)的音頻幀指示的語音。

在一些實施例中，用戶交互信息包括用戶視頻；以及，基于用戶交互信息，生成針對用戶交互信息的反饋信息，包括：響應(yīng)于用戶視頻中的語音音頻滿足預(yù)設(shè)語調(diào)調(diào)整條件，生成用于指示用戶調(diào)整音頻的語調(diào)的反饋信息；響應(yīng)于用戶視頻中的圖像中的口型符合預(yù)設(shè)口型調(diào)整條件，生成用于指示用戶調(diào)整口型的反饋信息。

在一些實施例中，基于反饋信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻，包括：響應(yīng)于用戶交互信息包括語音音頻，從預(yù)先確定的情感類別集合中，確定語音音頻所屬的情感類別；基于反饋信息和所確定的情感類別，生成用于指示預(yù)設(shè)人員執(zhí)行目標(biāo)動作的視頻，其中，目標(biāo)動作與反饋信息以及所確定的情感類別指示的情感相對應(yīng)。

在一些實施例中，用戶交互信息包括外語語音音頻，預(yù)設(shè)人員為外教；以及，基于反饋信息，生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻，包括：響應(yīng)于反饋信息為文本信息，將文本信息輸入至針對外教預(yù)先訓(xùn)練的生成模型，生成與文本信息相對應(yīng)的語音音頻，以及用于指示外教發(fā)出所生成的語音音頻的圖像序列，其中，生成模型用于生成與所輸入的文本信息相對應(yīng)的語音音頻，以及用于指示外教發(fā)出與所輸入的文本信息相對應(yīng)的語音音頻的圖像序列；基于所生成的圖像序列和與文本信息相對應(yīng)的語音音頻，生成用于指示外教發(fā)出與文本信息相對應(yīng)的語音音頻的視頻。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司，未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010182273.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。