[發(fā)明專利]用于生成視頻的方法、裝置、設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202010182273.8 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111415662A | 公開(公告)日: | 2020-07-14 |
| 發(fā)明(設(shè)計)人: | 殷翔 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G10L21/10;G10L13/04;G10L13/047;G10L13/08;G10L13/033;G10L25/63 |
| 代理公司: | 北京海智友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11455 | 代理人: | 鞏靖 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 生成 視頻 方法 裝置 設(shè)備 介質(zhì) | ||
本公開的實施例公開了用于生成視頻的方法、裝置、設(shè)備和介質(zhì)。該用于生成視頻的方法的一具體實施方式包括:獲取目標(biāo)用戶的用戶交互信息;基于用戶交互信息,生成針對用戶交互信息的反饋信息;基于反饋信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻。該實施方式可以通過生成視頻的方式與用戶進(jìn)行信息交互,由此提高了交互方式的多樣性,有助于避免用戶與真人進(jìn)行交互過程中產(chǎn)生的羞澀感。
技術(shù)領(lǐng)域
本公開的實施例涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及用于生成視頻的方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù)
人機(jī)交互技術(shù)(Human-Computer InteracTIon Techniques)是信息化技術(shù)發(fā)展的產(chǎn)物,是一種通過計算機(jī)輸入、輸出設(shè)備,以有效的方式實現(xiàn)人與計算機(jī)對話的技術(shù)。其實現(xiàn)了從人適應(yīng)計算機(jī)到計算機(jī)適應(yīng)人的轉(zhuǎn)化。
目前,人機(jī)交互方式不僅包括鍵盤輸入、手柄操作,還包括更加新奇的方式,例如,手指的微小動作、聲波在空氣中的振動、眼珠和舌頭的轉(zhuǎn)動等等,都可以實現(xiàn)信息傳遞,完成人與機(jī)器之間的“對話”。
發(fā)明內(nèi)容
本公開提出了用于生成視頻的方法、裝置、設(shè)備和介質(zhì)。
第一方面,本公開的實施例提供了一種用于生成視頻的方法,該方法包括:獲取目標(biāo)用戶的用戶交互信息;基于用戶交互信息,生成針對用戶交互信息的反饋信息;基于反饋信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻。
在一些實施例中,反饋信息為文本信息;以及,基于反饋信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻,包括:確定與文本信息相對應(yīng)的音素信息和語調(diào)信息;基于音素信息和語調(diào)信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻。
在一些實施例中,基于音素信息和語調(diào)信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻,包括:基于音素信息,確定待生成的語音音頻的音頻幀數(shù)量,以及待生成的圖像序列的圖像數(shù)量,其中,音頻幀數(shù)量與圖像數(shù)量相等;基于音素信息和語調(diào)信息,生成語音音頻和圖像序列,其中,語音音頻包括的音頻幀的數(shù)量為音頻幀數(shù)量,圖像序列中的圖像的數(shù)量為圖像數(shù)量,圖像序列指示預(yù)設(shè)人員執(zhí)行與語音音頻相對應(yīng)的動作;將語音音頻和圖像序列進(jìn)行合成,得到用于指示預(yù)設(shè)人員執(zhí)行與語音音頻相對應(yīng)的動作的視頻。
在一些實施例中,語音音頻中的音頻幀與圖像序列中的圖像一一對應(yīng),圖像序列中的圖像的口型表征:預(yù)設(shè)人員發(fā)出與該圖像相對應(yīng)的音頻幀指示的語音。
在一些實施例中,用戶交互信息包括用戶視頻;以及,基于用戶交互信息,生成針對用戶交互信息的反饋信息,包括:響應(yīng)于用戶視頻中的語音音頻滿足預(yù)設(shè)語調(diào)調(diào)整條件,生成用于指示用戶調(diào)整音頻的語調(diào)的反饋信息;響應(yīng)于用戶視頻中的圖像中的口型符合預(yù)設(shè)口型調(diào)整條件,生成用于指示用戶調(diào)整口型的反饋信息。
在一些實施例中,基于反饋信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻,包括:響應(yīng)于用戶交互信息包括語音音頻,從預(yù)先確定的情感類別集合中,確定語音音頻所屬的情感類別;基于反饋信息和所確定的情感類別,生成用于指示預(yù)設(shè)人員執(zhí)行目標(biāo)動作的視頻,其中,目標(biāo)動作與反饋信息以及所確定的情感類別指示的情感相對應(yīng)。
在一些實施例中,用戶交互信息包括外語語音音頻,預(yù)設(shè)人員為外教;以及,基于反饋信息,生成用于指示預(yù)設(shè)人員執(zhí)行與反饋信息相對應(yīng)的動作的視頻,包括:響應(yīng)于反饋信息為文本信息,將文本信息輸入至針對外教預(yù)先訓(xùn)練的生成模型,生成與文本信息相對應(yīng)的語音音頻,以及用于指示外教發(fā)出所生成的語音音頻的圖像序列,其中,生成模型用于生成與所輸入的文本信息相對應(yīng)的語音音頻,以及用于指示外教發(fā)出與所輸入的文本信息相對應(yīng)的語音音頻的圖像序列;基于所生成的圖像序列和與文本信息相對應(yīng)的語音音頻,生成用于指示外教發(fā)出與文本信息相對應(yīng)的語音音頻的視頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010182273.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





