[發明專利]語音驅動唇形動畫的方法無效
| 申請號: | 200910263558.8 | 申請日: | 2009-12-24 |
| 公開(公告)號: | CN101751692A | 公開(公告)日: | 2010-06-23 |
| 發明(設計)人: | 章毅;王平安;周激流;鄭伯川;呂建成;張蕾;彭德中;于佳麗;張海仙 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06T15/70 | 分類號: | G06T15/70;G06T13/00;G10L21/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 驅動 動畫 方法 | ||
技術領域
本發明涉及三維人臉動畫技術領域,具體涉及一種語音驅動唇形動畫的方 法。
背景技術
唇形動畫是人臉表情動畫研究的重要內容之一,也是難點之一,人類的語 言具有多模態特性,說話人的聲音以及唇部運動,即唇形的狀態變化,共同影 響著他人對說話者的語音理解,這表明語音與唇形之間存在著一定的、自然的 聯系。唇同步是音頻流和視頻流之間的一種時間映射關系,是指說話人的語音 與唇形運動狀態之間的一種同步關系,采用映射模型是一種廣泛使用且有效的 算法。
騰訊科技(深圳)有限公司申請的中國專利200910003083.9公開了一種語 音驅動嘴唇形狀變化的方法、獲取嘴唇動畫的方法及裝置,屬于計算機技術領 域,該語音驅動嘴唇形狀變化的方法包括:獲取音頻信號,根據所述音頻信號的 特征得到嘴唇形狀的運動幅度比例;獲取初始的嘴唇形狀模型,根據所述初始 的嘴唇形狀模型和所述嘴唇形狀的運動幅度比例生成嘴唇形狀的運動幅度值; 根據所述嘴唇形狀的運動幅度值和預先建立的嘴唇發音模型庫,生成變化的嘴 唇形狀網格模型集合。該方法可操作性較小,由于每個人的口型的形狀大小不 同,同時說話時口型的運動幅度也有所不同,因此通過語音特征獲取口型的運 動幅度的比例會產生一定的誤差,而且此方法的實現較復雜。
中國專利CN100369469C(申請號200510093269.X)也公開了一種語音驅 動頭部圖像合成影音文件的方法,一種語音驅動頭部圖像合成影音文件的方法。 它包括取靜態頭部數碼圖像;提取頭部、臉部及五官輪廓特征點數據坐標,并計算 圖像動畫模式數據;生成包括口形閉合幀、口形張開幀、表情幀以及三種類型圖 像幀的各自數目在內的圖像特征數據文件;采集語音數碼信息;分析、提取語 音特征數據,生成包括有聲音語音幀和無聲音語音幀在內的語音特征數據文件; 將圖像特征數據文件和語音特征數據文件同步合成,使得有聲音語音幀對應口 形張開幀,無聲音語音幀對應口形閉合幀,然后輸出。該方法采用將圖像特征 數據文件和語音特征數據文件同步合成的方法,由于圖像特征的提取較為復雜, 很難達到實時性的要求,而且只區分出有音幀與無音幀對應的唇形,但沒有考 慮到語音中噪音的情況,很可能把噪音當作有音幀來處理而發生錯誤。
中國專利申請200510086646.7也公開一種基于動態基元選取的語音驅動人 臉動畫方法,將輸入的任何用戶的任何語言的語音轉換成語音和三維人臉動畫的 同步輸出。此方法基于采用運動實時捕獲系統建立的多模態數據庫,對多模態數 據進行音視頻分析,分別獲得相應的特征向量;以音素為基元單位對多模態數 據進行同步分割;對用戶給定的語音序列,計算每個基元的音頻匹配誤差和前 后基元間的視覺匹配誤差,最后在候選的基元中動態地選擇一條最佳路徑,輸出 與語音序列同步的人臉動畫參數序列,以驅動三維人臉動畫模型。該方法用于 處理任何語言的語音與唇形動畫的同步情況,由于每種語言的發音規律與發音 特征各不相同,很難有一個同一的標準處理方法,而且以此方法每個基元的音 頻匹配誤差和前后基元間的視覺匹配誤差,產生的這么誤差會很大,從候選的基 元中動態地選擇一條最佳路徑有可能不是最佳路徑。
發明內容
本發明所要解決的問題是:如何提供一種語音驅動唇形動畫的方法,該方法 克服了現有技術的缺陷,并且運算數據量小,可操做性強等特點。
本發明所提出的技術問題是這樣解決的:提供一種語音驅動唇形動畫的方 法,其特征在于,包括以下步驟:
步驟一將漢語中的音節結構采用Consonant-Vowel分類:聲母包括b、p、 m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零聲母,韻 母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、 ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、 uo、v、van、ve、vn、io;
步驟二采集若干個人的原始音頻數據和視頻數據:每個人讀聲母和韻母單 詞,同時使用DV或者攝像機拍攝,以獲取音頻流和視頻流數據;
步驟三獲取對應唇形信息:把視頻流分割成一幀幀圖片,找出聲母與韻母 所對應的圖片幀,使用ASM算法對正面的人臉圖片進行檢測,獲取聲母和韻母 所對應的唇形信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910263558.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子束滅菌方法
- 下一篇:從機械機器操作模型中自動推導邏輯控制器行為模型





