[發(fā)明專利]一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法有效
| 申請?zhí)枺?/td> | 201310080656.4 | 申請日: | 2013-03-12 |
| 公開(公告)號: | CN103218842A | 公開(公告)日: | 2013-07-24 |
| 發(fā)明(設計)人: | 侯進;米輝輝 | 申請(專利權)人: | 西南交通大學 |
| 主分類號: | G06T13/40 | 分類號: | G06T13/40;G06K9/62 |
| 代理公司: | 成都信博專利代理有限責任公司 51200 | 代理人: | 張澎 |
| 地址: | 610031 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 同步 驅(qū)動 三維 口型 面部 姿勢 動畫 方法 | ||
技術領域
本發(fā)明涉及語音驅(qū)動三維人臉動畫合成技術領域,具體涉及一種基于KNN與HMM混合模型的語音可視化協(xié)同發(fā)音建模。
背景技術
語音驅(qū)動三維人臉動畫合成的研究是自然人機交互領域的重要內(nèi)容。語音驅(qū)動三維人臉動畫合成是對一個人的聲音進行預處理,使之在虛擬的三維人臉頭像上合成與語音對應的口型動畫(lip?animation)和面部表情(facial?expressions)。目前,這方面的研究主要集中在合成同步、精確的口型動畫,以及通過語音分析實現(xiàn)對面部表情的分類上,還沒有一個較好的方法來實現(xiàn)語音同時驅(qū)動虛擬人的口型動畫和面部姿勢(facial?gestures?or?visual?prosody)。所謂面部姿勢是指頭部動作(head?movements)、眼睛動作(eye?movements)和眉毛動作(eyebrow?movements)等非語言信息。相對于口型動畫與語音有明顯的關聯(lián)關系,面部姿勢跟語音的關聯(lián)關系比較微弱,因此獲得比較準確的面部姿勢比較困難,這就使得語音驅(qū)動虛擬人的表情木訥、呆滯,沒有較為豐富的信息反饋,從而降低了人機交互的可理解性和認知度。這是語音驅(qū)動三維人臉動畫領域必須解決的瓶頸。
為了實現(xiàn)語音同步驅(qū)動人臉口型和面部姿勢,語音可視化建模是必不可少的一步。語音可視化建模是語言信息與合成人臉的接口,是驅(qū)動人臉產(chǎn)生語音動畫的核心結構。語音可視化模型通過分析語音信息,建立音素到視素的映射,將音素信息轉換成視素信息,將語音學上的協(xié)同發(fā)音體現(xiàn)到視覺效果上。如何建立語音與口型、語音與面部姿勢的映射關系,如何通過一個簡單而完全自動化的方法來獲得協(xié)同發(fā)音模型參數(shù),使得虛擬說話人動畫的生成完全自動化,并且具有一定的真實感,是我們的研究內(nèi)容。現(xiàn)如今,絕大多數(shù)研究學者僅僅是關注語音驅(qū)動三維人臉口型動畫,而將語音驅(qū)動人臉面部姿勢忽略了,這就使生成的虛擬人的人臉木訥呆滯,沒有任何表情信息的反饋,從而降低了人機交互的可理解性和可認知度。所以,僅僅關注語音與三維人臉口型之間的關系,是不能充分反映人臉最真實的狀況。
中國專利CN101751695A(申請?zhí)枺?00910263558.8)公開了一種基于BP神經(jīng)網(wǎng)絡的語音驅(qū)動唇形動畫的方法。其特征在于,包括以下步驟:將漢語中的音節(jié)結構采用Consonant-Vowel分類;采集若干個人的原始音頻數(shù)據(jù)和視頻數(shù)據(jù);獲取對應唇形信息;獲取語音特征數(shù)據(jù);對獲取的唇形信息和語音特征數(shù)據(jù)進行訓練和建模,依據(jù)訓練的模型實時輸入語音合成的唇形運動序列。該方法的可操作性不強,要求在訓練樣本比較充分的情況下,才有可能得到較好的判定效果,否則對于形變、尺度改變、光照改變等干擾,就不能很好地判定。并且神經(jīng)網(wǎng)絡方法存在合成動畫不夠連續(xù),跳變現(xiàn)象較多、口型特征預測不準確、且動畫流暢度和自然度欠佳的不足。
中國專利CN101930619A(申請?zhí)枺?01010263097.7)發(fā)明了一種基于協(xié)同過濾算法的實時語音驅(qū)動人臉唇部動畫系統(tǒng),通過輸入實時錄入的語音,使得任務頭部模型做出與輸入語音同步的唇部動畫。系統(tǒng)包含有音視頻編碼模塊,該模塊對采集到的語音和人臉三維特征點運動分別進行Mel頻率倒譜參數(shù)編碼和MPEG-4標準中的人臉動畫參數(shù)編碼,由音視頻編碼模塊得到的Mel頻率倒譜參數(shù)和人臉動畫參數(shù)多模態(tài)同步庫;協(xié)同過濾模塊使用協(xié)同過濾算法,由新輸入語音的Mel頻率倒譜參數(shù)編碼結合Mel頻率倒譜參數(shù)和人臉動畫參數(shù)多模態(tài)同步庫求出與語音同步的人臉動畫參數(shù);動畫模塊由人臉動畫參數(shù)驅(qū)動人臉模型進行動畫。該系統(tǒng)在完成語音驅(qū)動人臉動畫的同時,必須在動畫生成之前錄制好語音文件進行唇讀,不能對任意提供的朗讀文本合成語音動畫,所以具有一定的局限性。并且該系統(tǒng)僅僅是關注語音驅(qū)動三維人臉口型動畫,而將語音驅(qū)動人臉姿勢忽略了,這就使生成的虛擬人的人臉木訥呆滯,沒有任何表情信息的反饋,從而降低了人機交互的可理解性和可認知度。
迄今為止,還沒有一個較為合理而高效的方法實現(xiàn)語音同步驅(qū)動三維人臉口型和面部姿勢動畫的合成。這是因為,雖然口型跟語音之間存在著明顯的關聯(lián)性,但面部姿勢跟語音之間的關聯(lián)關系比較微弱,因此語音驅(qū)動準確的面部姿勢相對困難。采用什么方法去實現(xiàn)語音與口型、語音與面部姿勢之間的同步關聯(lián)問題,使語音可以同時驅(qū)動虛擬人唇部、眼睛、眉毛、頭部等部位做出一整套相應的動作,這是本發(fā)明要解決的關鍵問題。
發(fā)明內(nèi)容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南交通大學,未經(jīng)西南交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310080656.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





