[發明專利]虛擬形象生成方法、裝置、存儲介質及電子設備在審
| 申請號: | 202011462206.8 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112650831A | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 閆嵩 | 申請(專利權)人: | 北京大米科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/30;G06K9/00;G06T13/80;G10L15/02;G10L15/16;G10L15/26 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 張曉芳 |
| 地址: | 100025 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 虛擬 形象 生成 方法 裝置 存儲 介質 電子設備 | ||
本申請公開了一種虛擬形象生成方法、裝置、存儲介質及電子設備,屬于語音識別技術領域。所述虛擬形象生成方法包括:對音頻數據進行自動語音識別ASR處理得到文本信息,對所述文本信息進行語義分析得到情感信息,根據所述情感信息確定對應的動作屬性信息,根據所述動作屬性信息生成虛擬形象。故本申請中基于語義識別確定音頻數據的情感信息,確定動作屬性信息,進而生成更自然、真實的動作表情的虛擬形象,解決了現有生成的虛擬形象不夠真實,降低了互動體驗的問題。
技術領域
本發明涉及語音識別技術領域,具體涉及一種虛擬形象生成方法、裝置、存儲介質及電子設備。
背景技術
目前,語音即語言的聲音,由生物的發聲器官發出,負載著一定的語言意義,因此,語音是一種特殊的音頻,語音識別技術能夠將語音中包含的語言意義進行提取,并轉換成文本信息的格式,以便計算機存儲和處理。當前用戶可以通過語音識別技術方提供的語音識別算法對待識別語音進行自動識別,或者對待識別語音進行人工識別,來將待識別語音轉換成對應的文本信息,再通過對該文本信息進行處理生成對應的嘴唇變化圖像,以模擬說話時的嘴部動作的虛擬形象,虛擬形象合成可以應用在不同的場合,具有極大的商業價值,但現有技術基于音頻數據生成的虛擬形象存在動作不自然、導致影響用戶體驗的問題,因此如何生成相應嘴部運動和面部表情自然變化的高質量虛擬形象是目前亟待解決的問題。
發明內容
本申請實施例提供了一種虛擬形象生成方法、裝置、存儲介質及電子設備,可基于語義識別確定音頻內容,生成更自然的動作表情。所述技術方案如下:
第一方面,本申請實施例提供了一種虛擬形象生成方法,包括:
對音頻數據進行自動語音識別ASR處理得到文本信息;
對所述文本信息進行語義分析得到情感信息;
根據所述情感信息確定對應的動作屬性信息;其中,動作屬性信息包括:頭部動作屬性信息、面部動作屬性信息和肢體動作屬性信息中的一種或多種;
根據所述動作屬性信息生成虛擬形象。
第二方面,本申請實施例提供了一種虛擬形象生成裝置,所述裝置包括:
識別模塊,用于對音頻數據進行自動語音識別ASR處理得到文本信息;
分析模塊,用于對所述文本信息進行語義分析得到情感信息;
確定模塊,用于根據所述情感信息確定對應的動作屬性信息;其中,動作屬性信息包括:頭部動作屬性信息、面部動作屬性信息和肢體動作屬性信息中的一種或多種;
生成模塊,用于根據所述動作屬性信息生成虛擬形象。
第三方面,本申請實施例提供了一種計算機存儲介質,所述計算機存儲介質存儲有多條指令,所述指令適于由處理器加載并執行上述的方法步驟。
第四方面,本申請實施例提供了一種電子設備,包括:存儲器和處理器;其中,所述存儲器存儲有計算機程序,所述計算機程序適用于由所述處理器加載并執行上述的方法步驟。
本申請一些實施例提供的技術方案帶來的有益效果至少包括:
上述虛擬形象生成方法、裝置、存儲介質及電子設備工作時,對音頻數據進行自動語音識別ASR處理得到文本信息,對所述文本信息進行語義分析得到情感信息,根據所述情感信息確定對應的動作屬性信息,根據所述動作屬性信息生成虛擬形象。本申請實施例基于語義識別確定音頻數據的情感信息,確定動作屬性信息,與原始虛擬形象進行融合生成更自然、真實的動作表情的虛擬形象。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大米科技有限公司,未經北京大米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011462206.8/2.html,轉載請聲明來源鉆瓜專利網。





