[發(fā)明專利]一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法有效

申請?zhí)枺?/td>	201310080656.4	申請日：	2013-03-12
公開（公告）號：	CN103218842A	公開（公告）日：	2013-07-24
發(fā)明（設計）人：	侯進;米輝輝	申請（專利權）人：	西南交通大學
主分類號：	G06T13/40	分類號：	G06T13/40;G06K9/62
代理公司：	成都信博專利代理有限責任公司 51200	代理人：	張澎
地址：	610031 四川省成都市***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音同步驅(qū)動三維口型面部姿勢動畫方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明涉及語音驅(qū)動三維人臉動畫合成技術領域，具體涉及一種基于KNN與HMM混合模型的語音可視化協(xié)同發(fā)音建模。

背景技術

語音驅(qū)動三維人臉動畫合成的研究是自然人機交互領域的重要內(nèi)容。語音驅(qū)動三維人臉動畫合成是對一個人的聲音進行預處理，使之在虛擬的三維人臉頭像上合成與語音對應的口型動畫(lip?animation)和面部表情(facial?expressions)。目前，這方面的研究主要集中在合成同步、精確的口型動畫，以及通過語音分析實現(xiàn)對面部表情的分類上，還沒有一個較好的方法來實現(xiàn)語音同時驅(qū)動虛擬人的口型動畫和面部姿勢(facial?gestures?or?visual?prosody)。所謂面部姿勢是指頭部動作(head?movements)、眼睛動作(eye?movements)和眉毛動作(eyebrow?movements)等非語言信息。相對于口型動畫與語音有明顯的關聯(lián)關系，面部姿勢跟語音的關聯(lián)關系比較微弱，因此獲得比較準確的面部姿勢比較困難，這就使得語音驅(qū)動虛擬人的表情木訥、呆滯，沒有較為豐富的信息反饋，從而降低了人機交互的可理解性和認知度。這是語音驅(qū)動三維人臉動畫領域必須解決的瓶頸。

為了實現(xiàn)語音同步驅(qū)動人臉口型和面部姿勢，語音可視化建模是必不可少的一步。語音可視化建模是語言信息與合成人臉的接口，是驅(qū)動人臉產(chǎn)生語音動畫的核心結構。語音可視化模型通過分析語音信息，建立音素到視素的映射，將音素信息轉換成視素信息，將語音學上的協(xié)同發(fā)音體現(xiàn)到視覺效果上。如何建立語音與口型、語音與面部姿勢的映射關系，如何通過一個簡單而完全自動化的方法來獲得協(xié)同發(fā)音模型參數(shù)，使得虛擬說話人動畫的生成完全自動化，并且具有一定的真實感，是我們的研究內(nèi)容。現(xiàn)如今，絕大多數(shù)研究學者僅僅是關注語音驅(qū)動三維人臉口型動畫，而將語音驅(qū)動人臉面部姿勢忽略了，這就使生成的虛擬人的人臉木訥呆滯，沒有任何表情信息的反饋，從而降低了人機交互的可理解性和可認知度。所以，僅僅關注語音與三維人臉口型之間的關系，是不能充分反映人臉最真實的狀況。

中國專利CN101751695A(申請?zhí)枺?00910263558.8)公開了一種基于BP神經(jīng)網(wǎng)絡的語音驅(qū)動唇形動畫的方法。其特征在于，包括以下步驟：將漢語中的音節(jié)結構采用Consonant-Vowel分類；采集若干個人的原始音頻數(shù)據(jù)和視頻數(shù)據(jù)；獲取對應唇形信息；獲取語音特征數(shù)據(jù)；對獲取的唇形信息和語音特征數(shù)據(jù)進行訓練和建模，依據(jù)訓練的模型實時輸入語音合成的唇形運動序列。該方法的可操作性不強，要求在訓練樣本比較充分的情況下，才有可能得到較好的判定效果，否則對于形變、尺度改變、光照改變等干擾，就不能很好地判定。并且神經(jīng)網(wǎng)絡方法存在合成動畫不夠連續(xù)，跳變現(xiàn)象較多、口型特征預測不準確、且動畫流暢度和自然度欠佳的不足。

中國專利CN101930619A(申請?zhí)枺?01010263097.7)發(fā)明了一種基于協(xié)同過濾算法的實時語音驅(qū)動人臉唇部動畫系統(tǒng)，通過輸入實時錄入的語音，使得任務頭部模型做出與輸入語音同步的唇部動畫。系統(tǒng)包含有音視頻編碼模塊，該模塊對采集到的語音和人臉三維特征點運動分別進行Mel頻率倒譜參數(shù)編碼和MPEG-4標準中的人臉動畫參數(shù)編碼，由音視頻編碼模塊得到的Mel頻率倒譜參數(shù)和人臉動畫參數(shù)多模態(tài)同步庫；協(xié)同過濾模塊使用協(xié)同過濾算法，由新輸入語音的Mel頻率倒譜參數(shù)編碼結合Mel頻率倒譜參數(shù)和人臉動畫參數(shù)多模態(tài)同步庫求出與語音同步的人臉動畫參數(shù)；動畫模塊由人臉動畫參數(shù)驅(qū)動人臉模型進行動畫。該系統(tǒng)在完成語音驅(qū)動人臉動畫的同時，必須在動畫生成之前錄制好語音文件進行唇讀，不能對任意提供的朗讀文本合成語音動畫，所以具有一定的局限性。并且該系統(tǒng)僅僅是關注語音驅(qū)動三維人臉口型動畫，而將語音驅(qū)動人臉姿勢忽略了，這就使生成的虛擬人的人臉木訥呆滯，沒有任何表情信息的反饋，從而降低了人機交互的可理解性和可認知度。

迄今為止，還沒有一個較為合理而高效的方法實現(xiàn)語音同步驅(qū)動三維人臉口型和面部姿勢動畫的合成。這是因為，雖然口型跟語音之間存在著明顯的關聯(lián)性，但面部姿勢跟語音之間的關聯(lián)關系比較微弱，因此語音驅(qū)動準確的面部姿勢相對困難。采用什么方法去實現(xiàn)語音與口型、語音與面部姿勢之間的同步關聯(lián)問題，使語音可以同時驅(qū)動虛擬人唇部、眼睛、眉毛、頭部等部位做出一整套相應的動作，這是本發(fā)明要解決的關鍵問題。

發(fā)明內(nèi)容

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于西南交通大學，未經(jīng)西南交通大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310080656.4/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種鍍鈀鍍銀的雙鍍層鍵合銅絲的制造方法
下一篇：按鍵測試裝置及按鍵測試系統(tǒng)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06T 一般的圖像數(shù)據(jù)處理或產(chǎn)生
G06T13-00 動畫制作
G06T13-20 .3D［三維］動畫
G06T13-80 .2D［二維］動畫，如使用精靈sprites
G06T13-40 ..關于角色的，例如：人類、動物或虛幻人物
G06T13-60 ..關于自然景觀的，例如：雨、雪、水或植物

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]一種語音同步驅(qū)動三維人臉口型與面部姿勢動畫的方法有效

專利文獻下載