[發明專利]一種語音同步驅動三維人臉口型與面部姿勢動畫的方法有效
| 申請號: | 201310080656.4 | 申請日: | 2013-03-12 |
| 公開(公告)號: | CN103218842A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 侯進;米輝輝 | 申請(專利權)人: | 西南交通大學 |
| 主分類號: | G06T13/40 | 分類號: | G06T13/40;G06K9/62 |
| 代理公司: | 成都信博專利代理有限責任公司 51200 | 代理人: | 張澎 |
| 地址: | 610031 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 同步 驅動 三維 口型 面部 姿勢 動畫 方法 | ||
1.一種語音同步驅動三維人臉口型與面部姿勢動畫的方法,通過對用戶的聲音進行預處理,使之在虛擬人的人臉頭像上合成與語音同步的口型和面部姿勢動畫,包括以下主要步驟:?
(1)視素歸類,將部分聲韻母根據它們所對應的口型進行視素歸類,共分為16類,F0-F15;?
(2)建立音頻/視頻語料庫,用高清攝錄機進行錄制,由20個人,10男10女,讀取步驟1中的已經分好類的聲韻母,同時錄制好音頻和視頻,在錄制語音的時候,采集與語音同步的臉部視頻信息;?
(3)提取音頻/視頻幀特征參數,從步驟2錄制得到的音頻數據中提取出語音信號的音高、音強和和13維的Mel頻率倒譜系數MFCC,同時,截取與語音同步的視頻幀,提取視頻幀中各聲韻母所對應的基于MPEG-4定義的口型特征參數和面部姿勢特征參數,然后計算各特征點坐標與標準幀坐標的差值Vel={V1,V2,...,Vn},再計算按MPEG-4定義的人臉上的對應尺度參考量P={P1,P2,...,Pn},通過公式(1),?
Fapi=(Vi(x|y)/Pi(x|y))*1024????(1)?
得到人臉運動參數;其中,Fapi表示與第i個特征點對應的人臉運動參數,Vi(x|y)表示的Vi的x或y坐標,Pi(x|y)表示與Vi(x|y)對應的尺度參考量;?
(4)將步驟3中的語音信號的特征參數13—MFCC進行降維處理,利用PCA方法將語音信號的特征向量、口型幀的特征向量進行降維處理,將語音信號中13—MFCC降低為4維向量,將口型特征參數降為4維向量;?
(5)運用k-means算法將步驟4中的語音特征參數和口型特征參數進行聚類分析;?
(6)運用KNN分類器將步驟5中的語音信號的特征參數與口型特征參數進行訓練和識別;?
(7)對于新輸入的語音信號s,根據K-nearest?neighbour準則求取相似度;通過求其相似度,然后選出相似度最大的前k個向量,這k個向量屬于哪個類別的口型最多,則這個類別的口型就是與語音信號相匹配的口型;?
(8)將面部姿勢分為六種類型:眨眼和凝視、揚眉和皺眉、點頭和搖頭,通過臉部部位的各種動作組合來表達不同的人臉面部信息;?
(9)用HMM對面部姿勢進行建模,將提取的語音信號的音高和音強,?與人臉六種基本面部姿勢進行訓練和識別;?
(10)訓練階段:首先,從錄制的語料庫中選取部分語料,使所選語料能夠覆蓋所有面部姿勢類型且保證一定的出現概率;提取出語音信號的特征參數和面部姿勢的特征參數,接著把語音特征參數作為觀察值序列,通過Baum-Welch重估算法訓練各相應的HMM,然后用Viterbi算法搜索并記錄下語音特征參數所對應的最優狀態序列;用HMM建模將面部姿勢六種類型的特征參數與語音特征參數所對應的最優狀態序列建立對應關系;?
(11)識別階段:對新輸入的語音信號進行特征提取,分析其音高和音強,然后根據訓練好的HMM,將新的語音特征參數作為HMM的觀察值序列,通過Veterbi算法搜索并獲取最優狀態序列;計算新輸入語音信號與訓練庫中的圖像觀察值序列中的各個人臉面部姿勢的相似或然率P(O|M);找出最大相似或然率,對應的HMM即為與新輸入的語音信號相匹配的人臉面部姿勢;?
(12)依據以上步驟得到與語音信號相對應的人臉面部姿勢和口型幀序列參數,經過平滑處理后,使用Xface開源軟件合成最終的人臉動畫。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南交通大學,未經西南交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310080656.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鍍鈀鍍銀的雙鍍層鍵合銅絲的制造方法
- 下一篇:按鍵測試裝置及按鍵測試系統





