[發明專利]一種實時音頻驅動的虛擬人物口型同步控制方法有效
| 申請號: | 201911314031.3 | 申請日: | 2019-12-19 |
| 公開(公告)號: | CN111081270B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 朱風云;陳博 | 申請(專利權)人: | 大連即時智能科技有限公司 |
| 主分類號: | G10L21/10 | 分類號: | G10L21/10;G10L21/18;G10L25/57;G10L15/02;H04N21/43 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 116000 遼寧省大連市大連高*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實時 音頻 驅動 虛擬 人物 口型 同步 控制 方法 | ||
1.一種實時音頻驅動的虛擬人物口型同步控制方法,包括如下步驟:
從實時語音流中識別出視素概率的步驟;其中,視素概率是基于預設的音素到視素的映射關系,將屬于同一類視素的音素概率合并后得到的;所述視素概率利用視素識別方法得到;或利用音素識別從實時語音流中識別出音素概率,再將所述音素概率轉換為視素概率;
對所述視素概率進行濾波的步驟;
將所述視素概率的采樣率轉換為和虛擬人物渲染幀率相同的采樣率的步驟;
將所述視素概率轉換為標準口型配置并進行口型渲染的步驟;將所述視素概率轉換為標準口型配置時:首先,為每一種視素定義標準口型配置,所述標準口型配置為關鍵幀或描述口型的參數;其次,通過映射函數將視素概率轉換為標準口型配置的混合比例;其中,在關鍵幀場景下,所述混合比例是不同關鍵幀之間的插值比例;在關鍵點參數、骨骼參數或blenshape參數的場景下,所述混合比例是關鍵點參數、骨骼參數或blenshape參數的混合比例。
2.如權利要求1所述的一種實時音頻驅動的虛擬人物口型同步控制方法,其特征在于:采用有限或無限沖擊響應濾波器,分別對各視素概率進行平滑濾波。
3.如權利要求1所述的一種實時音頻驅動的虛擬人物口型同步控制方法,其特征在于:在音視頻播放時,為保持同步,在播放音頻流時通過補償延遲使音頻流和視頻流的內容同步。
4.如權利要求3所述的一種實時音頻驅動的虛擬人物口型同步控制方法,其特征在于:所述補償延遲的緩沖區的長度由口型視素識別、濾波和視頻渲染的處理延遲共同決定。
5.如權利要求1所述的一種實時音頻驅動的虛擬人物口型同步控制方法,其特征在于:所述音素識別包括:將語音流分幀,進行特征提取的步驟;以及利用所述特征進行音素估計的步驟。
6.如權利要求5所述的一種實時音頻驅動的虛擬人物口型同步控制方法,其特征在于:所述音素是IPA定義的音素,或自定義音素。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連即時智能科技有限公司,未經大連即時智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911314031.3/1.html,轉載請聲明來源鉆瓜專利網。





